Hadoop支持Lzo和分片

最新推荐文章于 2024-05-14 10:54:56 发布

谜失落的世界

最新推荐文章于 2024-05-14 10:54:56 发布

阅读量397

点赞数

分类专栏： Hadoop 文章标签： hadoop支持lzo分片

本文链接：https://blog.csdn.net/qq_40454655/article/details/90312160

版权

Hadoop支持Lzo和分片

为了节省磁盘空间，文件的存储往往需要压缩，有的需要压缩比大，有的需要压缩速度快。而对于一套计算的结果存储，如多个MapReduce之间，需要能支持分片的压缩方式。lzop就是个可以支持分片的压缩方式，非常适合用于多个MapReduce之间的计算中间结果存储。
在Hadoop上安装lzop与在hive上的使用，并且支持分片功能
参考：https://segmentfault.com/a/1190000019067537
使用分片：
create table t_log( log_date date, ip string,uuid string,traffic float,url string)
ROW FORMAT DELIMITED FIELDS TERMINATED BY ‘\t’
STORED AS INPUTFORMAT ‘com.hadoop.mapred.DeprecatedLzoTextInputFormat’
OUTPUTFORMAT ‘org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat’;
备注：此处建表是内部表，需要指定分隔符
load data inpath ‘/data/file/tracker4.log.lzo’ into table t_log;
备注：不加local就是从hdfs上加载（内部表加载完后，该压缩文件就不在这个目录了，而是进入了hive的仓库目录：/user/hive/warehouse/t_log/tracker4.log.lzo，应该是加载内部表数据给移动了，外部表是不移动的，并且删除

最低0.47元/天解锁文章

谜失落的世界

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Hadoop支持Lzo和分片

Hadoop支持Lzo和分片为了节省磁盘空间，文件的存储往往需要压缩，有的需要压缩比大，有的需要压缩速度快。而对于一套计算的结果存储，如多个MapReduce之间，需要能支持分片的压缩方式。lzop就是个可以支持分片的压缩方式，非常适合用于多个MapReduce之间的计算中间结果存储。在Hadoop上安装lzop与在hive上的使用，并且支持分片功能参考：https://segmentfau...
复制链接

扫一扫

专栏目录