MapReduce
lianchaozhao
这个作者很懒,什么都没留下…
展开
-
cloudra中 mapreduce.map.memory.mb 设置诡异(推荐设置问题)
诡异问题 生产环境 mr 运行任务 map端和reduce 的运行内存都设置的为0 为作业的每个 Map 任务分配的物理内存量(MiB)。对于早于 CDH 5.5 的版本,如果未指定内存量,则默认设置为 1024。对于 CDH 5.5 及更高版本,不支持小于 128 的值,但如果将其指定为 0,则可以通过 Map 任务的最大堆大小以及堆与容器的大小比值推断要请求的物理内存量。如果未指定 Map ...原创 2019-12-03 19:45:27 · 5058 阅读 · 0 评论 -
MapReduce 读写 lzo 压缩文件 详细
问题: 用java编写mapreduce程序时,lzo格式作为输入跟用文本作为输入一样,可以把lzo文件当做文本直接使用,但是一个lzo文件会分在一个map上,如果lzo文件过大,希望用多个map时,调整mapred.min.split.size和mapred.max.split.size就不好使了。 解决方法: lzo文件建索引,索引文件与lzo文件同名,后缀为.index,其方法为应用 had...原创 2018-10-12 16:32:34 · 2228 阅读 · 0 评论 -
(.*?)正则表达式 效率问题
应用 MapReduce 正则匹配出自己要的字段 问题:正则配置后效率太慢影响其相应mr执行 旧正则表达式 修改后的正则表达式 效率提升很多。程序执行时间降低了很高 ...原创 2019-05-14 18:15:15 · 929 阅读 · 0 评论