面试题-大数据
文章平均质量分 93
haixwang
。。。。。。
展开
-
Hadoop/Spark的shuffle面试题集合(一)
由于shuffle阶段涉及磁盘的读写和网络IO,因此shuffle性能的高低直接影响整个程序的性能和吞吐量。 【注:毕竟有些东西我没有实际应用、经历,所以文中难免有错,还请各路大神多多指正!】1. spark的shuffle 是什么?过程? 怎么调优?在MapReduce过程中需要将各个节点上的同一类数据汇集到一个节点进行计算。把这些分布在不同节点的数据按照一定规则聚集到一起的过程,...原创 2018-03-01 00:02:19 · 4100 阅读 · 0 评论 -
HBase原理–所有Region切分的细节都在这里了
转载自:http://developer.51cto.com/art/201708/549419.htm———————————————————- HBase系统中Region自动切分是如何实现的?这里面涉及很多知识点,比如Region切分的触发条件是什么?Region切分的切分点在哪里?如何切分才能最大的保证Region的可用...转载 2018-03-11 11:56:28 · 3809 阅读 · 0 评论 -
Hbase相关面试题
他人真实面试问题HBase的架构和基本原理HBase与传统关系型数据库如MySQL的区别读写性能对比读快还是写快Hbase的设计有什么心得Hbase的操作是用的什么API还是什么工具你们hbase里面是存一些什么数据知道spark怎么读hbase吗做过hbase的二级索引吗Hbase的PUT的一个过程以下是我自己想的问题描述一下Region切分的过程Hbase读取数据的流程原创 2018-03-11 11:44:33 · 14899 阅读 · 0 评论 -
HBase读写流程
读流程读流程概览详细叙述写流程写流程概览详细叙述参考读流程:读流程概览: 1.首先,客户端需要获知其想要读取的信息的Region的位置,这个时候,Client访问hbase上数据时并不需要Hmaster参与(HMaster仅仅维护着table和Region的元数据信息,负载很低),只需要访问zookeeper,从meta表获取相应region信息(地址和端口等)。【Client请求Z原创 2018-03-11 21:02:41 · 6516 阅读 · 3 评论 -
TODO集合
从今天开始,我把所有18年起的TODO,都同步到这篇文章。 一方面是方便自己常“回来看看“,记得解决这些疑惑; 另一方面,希望知道/有解决思路的前辈们能留言或者(QQ911283415)指点一二,感激! (序列中所有非链接字体以及【】中的文字,可在文章中搜索定位)九、2018年06月23日:关于Object类一些重要方法的深入理解及重载第一段测试代码中,两个Integer引用未一...原创 2018-06-23 22:23:44 · 354 阅读 · 0 评论