大数据组件--hadoop
lw305080
这个作者很懒,什么都没留下…
展开
-
hadoop支持lzo完整过程
简介部署安装lzop native library安装hadoop-lzo配置hadoop环境变量验证lzo通过hive测试创建lzo表导入数据索引LZO文件利用hive执行mr任务修改使用中hive表的输入输出格式简介 启用lzo 启用lzo的压缩方式对于小规模集群是很有用处,压缩比率大概能降到原始日志大小的1/3。同时解压缩的速度也比原创 2016-12-10 00:39:48 · 1200 阅读 · 0 评论 -
hdfs文件压缩
1、1.1、压缩格式总结 压缩格式工具算法文件扩展名是否可切分DEFLATE无DEFLATE.deflate否GzipgzipDEFLATE.gz否bzip2bzip2bzip2.bz2是原创 2016-12-10 00:42:39 · 1838 阅读 · 0 评论 -
HDFS节点内数据平衡:DiskBalancer
转载地址:http://blog.csdn.net/androidlushangderen/article/details/51776103目录(?)[-]前言磁盘间数据不均衡状况的出现磁盘间数据不均衡带来的问题磁盘间数据不均衡的传统解决方案社区解决方案DiskBalancerDiskBalancer的设计核心DiskBalancer的架构设计Disco转载 2016-12-29 11:21:21 · 2736 阅读 · 0 评论 -
MapReduce之mapOutputBuffer解析
转载地址:http://blog.csdn.net/wangqinghuan1993/article/details/53785403MapOutPutBuffer就是map任务暂存记录的内存缓冲区。不过这个缓冲区是有限的,当写入的数据超过缓冲区设定的阈值时,需要将缓冲区的数据写入到磁盘,这个过程叫spill。在溢出数据到磁盘的时候,会按照key进行排序,保证刷新到磁盘的记录时排好序的。该缓冲转载 2017-02-22 09:25:08 · 2659 阅读 · 0 评论