大数据
weixin_39979119
这个作者很懒,什么都没留下…
展开
-
本地运行MapReduce程序时报错问题之java.lang.UnsatisfiedLinkError: org.apache.hadoop.io.nativeio.NativeIO$Windows.
环境: windows10 idea2017 hadoop2.7.7本地运行MapReduce程序时报错:主体信息:java.lang.UnsatisfiedLinkError: org.apache.hadoop.io.nativeio.NativeIO$Windows.解决方案:在project下新建package:org.apache.hadoop.io.nativeio将N...原创 2018-12-14 17:05:01 · 679 阅读 · 0 评论 -
hbase
hbase程序内部有zookeeper程序一般配置文件中都会关掉hbase自己的zookeeper程序,使用公共的zookeeper集群原创 2018-12-18 20:57:30 · 61 阅读 · 0 评论 -
Hadoop切分纯文本时对某一行跨两个分片这种情况的处理
hdfs写入文件需要把大文件分割成多个块,那么有可能会把文件的某一个行分成在不同的块中;这是一个出现分块的时候。还有个就是我的上篇博文中说到的,在mapreduce处理时,当hdfs分块的block大小大于split设置的最大值时也会分割成多个split分片,相当于对块的进一步切割。但是这两种情况出现的概率都很小。下面转自:https://blog.csdn.net/appstore81/art...转载 2018-12-17 21:16:22 · 433 阅读 · 0 评论 -
大数据案例汇总
Hadoop案例(九)流量汇总案例转载 2018-12-11 21:03:16 · 520 阅读 · 0 评论 -
map端做join 和 reduce 端的join 对比
reduce 端的join缺点:1.容易发生数据倾斜2.reduce本身并行度不高,性能不高(个数datanode*0.95)3.reducejoin需要结合list,本身存在性能瓶颈map端做join优势:1.mapjoin的并行度高2.可以有效的避免数据倾斜流程:至少一个表读取一行数据,另一个表读取所有数据使用setup先把表数据读取出来,读取到map集合中,key:关联...原创 2018-12-16 21:50:54 · 880 阅读 · 0 评论 -
技术博客汇总
专注于大数据https://www.iteblog.com/原创 2018-12-15 21:20:44 · 115 阅读 · 0 评论 -
MapReduce : shuffle机制 -- 排序和分发
1多个maptask程序分别读取一部分文件内容2每次读取一行,执行map逻辑,发给缓冲区,缓冲区大小默认100M,3有线程监控缓冲区,当超过80%时,做溢出处理,将缓冲区内容持久化到hadoop文件4溢出文件是分区的,根据reducetask个数决定,5溢出文件内部是有序的,6处理大数据时会有多个溢出文件7将多个溢出文件的每个分区合并(归并排序)后分发给对应的reducetask8r...原创 2018-12-14 17:59:02 · 194 阅读 · 0 评论 -
单位换算:十亿整数大小换算后为4GB
int 4byte一亿整数大小换算后为400MB十亿整数大小换算后为4GB1 0000 0000 * 4 byte = 4 0000 0000 byte = 4 0000 0000 / (1024*1024 ) MB= 4 0000 0000 / (1048576 )MB= 382MB1KB = 1024 byte1MB = 1024 KB1GB = 1024 MB1TB = 10...原创 2018-12-14 17:36:35 · 1514 阅读 · 1 评论 -
大数据技巧
题目:有一个大文件,里面记录了若干数字,把这些数字进行排序。文件大小远大于内存大小。思路:内存极少的情况下,利用分治策略,利用外存保存中间结果,再用多路归并来排序。(1)按可用内存的大小,把外存上含有n个记录的文件分成若干个长度为L的子文件,把这些子文件依次读入内存,并利用有效的内部排序方法对它们进行排序,再将排序后得到的有序子文件重新写入外存;(2)对这些有序子文件逐趟归并,使其逐渐由小到...转载 2018-12-14 17:23:00 · 58 阅读 · 0 评论 -
storm总结
Storm用于实时计算,Hadoop用于离线计算。2)Storm处理的数据保存在内存中,源源不断;Hadoop处理的数据保存在文件系统中,一批一批处理。3)Storm的数据通过网络传输进来;Hadoop的数据保存在磁盘中。4)Storm与Hadoop的编程模型相似Stormhadoop角色NimbusJobTrackerSupervisorTaskTra...原创 2019-01-10 21:34:22 · 126 阅读 · 0 评论