![](https://img-blog.csdnimg.cn/20201014180756754.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
APIC&0X7C00
振荡器->触发器->锁存器->寄存器->ALU->BIOS->0X7C00->实模式->保护模式->GDT&IDT&TSS&LDT->Sched->mm->OS->C->JVM->Spark,大数据还难吗?
展开
-
Spark自定义RDD从HDFS读取数据
1思考- sc.txexFile会发生数据倾斜吗?自定义有必要吗? 一个task读取一个block中的数据,多少个block就会产生多少个Task,如果两个Task之间数据相差很多,那是因为两个block中数据分布不均匀造成的。。。 从HDFS读取数据,如果HDFS数据存在很多block,会使得分区partition很多,远远大于core数,这时候可以使用repa...原创 2020-03-19 10:03:49 · 677 阅读 · 0 评论 -
Spark存储数据到HBase实现RowKey完全散列-多进程多线程间Random完全随机,完美解决热点问题
1 背景 需要将数据存储到HBase,而且数据是无限递增的,我要设计建表、HRegion的划分、散列rowkey,从而使得数据均匀分布在每个HRegion上。2 HBase配置-60010端口或16010端口3 分析3.1 HRegion个数#创建6个HRegion,每个HRegion分配在1个HRegionServer上3.2 Rowkey排序...原创 2020-03-19 09:47:34 · 536 阅读 · 0 评论 -
用JAVA多线程实现单机版Map-Shuffle-Reduce,以理解MapReduce原理
1 需求如下有1个文件:一行数据中,第1列是key,第2列是value我们要做的事是:相同的key进行value累加 得出按key排序前5的key-value值使用Map-Reduce模型(JAVA多线程)实现2 思路我们的map阶段是4 core执行,Reduce阶段也是4 core执行待处理文件:mapreduce.txtMain函数阶段:1)读取map...原创 2020-03-19 09:19:40 · 621 阅读 · 1 评论