MapReduce
文章平均质量分 79
Aying_seeya
专研大数据、Java ...
展开
-
大数据相关 各组件的参数调优
Hadoophdfs大量小文件处理1)会有什么影响(1)1个文件块,占用namenode多大内存150字节1亿个小文件150字节1 个文件块150字节128G能存储多少文件块? 128 * 102410241024byte/150字节 = 9亿文件块2)怎么解决(1)采用har归档方式,将小文件归档(2)采用CombineTextInputFormat(3)有小文件场景开启JVM重用;如果没有小文件,不要开启JVM重用,因为会一直占用使用到的task卡槽,直到任务完成才释放。JV原创 2020-08-15 16:16:25 · 698 阅读 · 0 评论 -
MapReduce自定义数据类型
数据类型(都实现了Writable接口)BooleanWritable 布尔类型ByteWritable 单字节数值DoubleWritable 双字节数值FloatWritable 浮点数IntWritable 整型数LongWritable 长整型Text UTF-8格式存储的文本NullWritable 空类型因为shuffle中排序依据是key,若定义的数据类型为Key,必须实现writable和comparable接口,即WritableComparabl原创 2020-07-17 11:25:23 · 474 阅读 · 0 评论 -
MapReduce中大量小文件是如何产生的?如何优化?
在分布式的架构中,分布式文件系统HDFS,和分布式运算程序编程框架mapreduce。HDFS:不怕大文件,怕很多小文件mapreduce :怕数据倾斜那么mapreduce是如果解决多个小文件的问题呢?mapreduce关于大量小文件的优化策略(1) 默认情况下,TextInputFormat对任务的切片机制是按照文件规划切片,不管有多少个小文件,都会是单独的切片,都会交给一个maptask,这样,如果有大量的小文件就会产生大量的maptask,处理效率极端底下(2)优化策略最好的方法:在原创 2020-05-22 15:58:35 · 887 阅读 · 0 评论