MapReduce
文章平均质量分 79
Aying_seeya
专研大数据、Java ...
展开
-
大数据相关 各组件的参数调优
Hadoop hdfs大量小文件处理 1)会有什么影响 (1)1个文件块,占用namenode多大内存150字节 1亿个小文件150字节 1 个文件块150字节 128G能存储多少文件块? 128 * 102410241024byte/150字节 = 9亿文件块 2)怎么解决 (1)采用har归档方式,将小文件归档 (2)采用CombineTextInputFormat (3)有小文件场景开启JVM重用;如果没有小文件,不要开启JVM重用,因为会一直占用使用到的task卡槽,直到任务完成才释放。 JV原创 2020-08-15 16:16:25 · 725 阅读 · 0 评论 -
MapReduce自定义数据类型
数据类型(都实现了Writable接口) BooleanWritable 布尔类型 ByteWritable 单字节数值 DoubleWritable 双字节数值 FloatWritable 浮点数 IntWritable 整型数 LongWritable 长整型 Text UTF-8格式存储的文本 NullWritable 空类型 因为shuffle中排序依据是key,若定义的数据类型为Key,必须实现writable和comparable接口,即WritableComparabl原创 2020-07-17 11:25:23 · 482 阅读 · 0 评论 -
MapReduce中大量小文件是如何产生的?如何优化?
在分布式的架构中,分布式文件系统HDFS,和分布式运算程序编程框架mapreduce。 HDFS:不怕大文件,怕很多小文件 mapreduce :怕数据倾斜 那么mapreduce是如果解决多个小文件的问题呢? mapreduce关于大量小文件的优化策略 (1) 默认情况下,TextInputFormat对任务的切片机制是按照文件规划切片,不管有多少个小文件,都会是单独的切片,都会交给一个maptask,这样,如果有大量的小文件 就会产生大量的maptask,处理效率极端底下 (2)优化策略 最好的方法:在原创 2020-05-22 15:58:35 · 924 阅读 · 0 评论