hadoop
文章平均质量分 52
_Kafka_
这个作者很懒,什么都没留下…
展开
-
Yarn中container、mr内存的配置,控制container个数
最近项目在用kylin,在搭建开发环境和测试环境后,然后在kylin上建cube,kylin建cube实际就是调用集群的MR跑任务(也可以调用spark作为引擎),在数据量小或者维度(kylin里面的一个概念)少的时候没问题,后来数据量大或维度多了,就经常出现OOM的问题。转载 2023-02-10 11:21:52 · 1922 阅读 · 0 评论 -
Hadoop之使用LZO压缩并支持分片
1.简介:安装LZO:lzo并不是Linux系统原生支持,所以需要下载安装软件包,这里至少需要安装3个软件包。lzo, lzop, hadoop-gpl-packaging。增加索引:gpl-packaging主要作用是对压缩的lzo文件创建索引,否则的话,无论压缩的文件是否大于hdfs上的block大小,都只会是一个分片处理。2.安装lzo并生成数据:2.1生成未压缩的测试数据先生成一个大于128M的测试数据,这样在使用lzo压缩后就能保证压缩文件大小大于数据块大小,方便后续测试分转载 2021-09-22 22:39:49 · 858 阅读 · 0 评论 -
LzoCodec和LzopCodec的区别
使用LZO过程会发现它有两种压缩编码可以使用,即LzoCodec和LzopCodec,下面说说它们区别:LzoCodec比LzopCodec更快, LzopCodec为了兼容LZOP程序添加了如bytes signature, header等信息 如果使用LzoCodec作为Reduce输出,则输出文件扩展名为".lzo_deflate",它无法被lzop读取;如果使用LzopCodec作为Reduce输出,则扩展名为".lzo",它可以被lzop读取 生成lzo index job的”Dist..原创 2021-09-22 19:44:34 · 352 阅读 · 0 评论 -
Mapreduce 指定参数
mapreduce在运行的时候可以指定各种参数,这样可以根据实际的应用场景做一下相关的调整1.指定运行时cpu的个数hadoop jar hadoop-core-0.1.0-SNAPSHOT.jar cn.hadoop.mapreduce.WordCount -D mapreduce.map.cpu.vcores=2 /home/input /home/output-D mapreduce.map.cpu.vcores=2 :指定这个mapreduce任务运行时cpu的个数/home/i.转载 2021-09-13 22:43:33 · 626 阅读 · 0 评论