- 博客(4)
- 资源 (25)
- 问答 (1)
- 收藏
- 关注
转载 Hadoop之使用LZO压缩并支持分片
1.简介:安装LZO:lzo并不是Linux系统原生支持,所以需要下载安装软件包,这里至少需要安装3个软件包。lzo, lzop, hadoop-gpl-packaging。增加索引:gpl-packaging主要作用是对压缩的lzo文件创建索引,否则的话,无论压缩的文件是否大于hdfs上的block大小,都只会是一个分片处理。2.安装lzo并生成数据:2.1生成未压缩的测试数据先生成一个大于128M的测试数据,这样在使用lzo压缩后就能保证压缩文件大小大于数据块大小,方便后续测试分
2021-09-22 22:39:49 858
转载 HIVE Parquet格式+snappy压缩及ORC格式+snappy压缩文件的方式
一.使用Parquet存储数据数据使用列存储之前是普通的行存储,下面是行存储的的文件大小,这个HDFS上的数据使用parquet列存储,可以将文件的大小减小化。下面具体讲parquet存储数据的代码以及加载数据的格式。数据库代码:create table if not exists db_yhd.track_log_parquet(id STRING,url STRING,referer STRING,keyword.
2021-09-22 22:24:35 4944
原创 LzoCodec和LzopCodec的区别
使用LZO过程会发现它有两种压缩编码可以使用,即LzoCodec和LzopCodec,下面说说它们区别:LzoCodec比LzopCodec更快, LzopCodec为了兼容LZOP程序添加了如bytes signature, header等信息 如果使用LzoCodec作为Reduce输出,则输出文件扩展名为".lzo_deflate",它无法被lzop读取;如果使用LzopCodec作为Reduce输出,则扩展名为".lzo",它可以被lzop读取 生成lzo index job的”Dist..
2021-09-22 19:44:34 353
转载 Mapreduce 指定参数
mapreduce在运行的时候可以指定各种参数,这样可以根据实际的应用场景做一下相关的调整1.指定运行时cpu的个数hadoop jar hadoop-core-0.1.0-SNAPSHOT.jar cn.hadoop.mapreduce.WordCount -D mapreduce.map.cpu.vcores=2 /home/input /home/output-D mapreduce.map.cpu.vcores=2 :指定这个mapreduce任务运行时cpu的个数/home/i.
2021-09-13 22:43:33 628
netty-websocket-proxy-1.3.0.zip
2020-04-27
commons-codec.jar commons-lang.jar
2018-05-07
HDFS 使用关系型数据库存储管理元数据是不是更有优势
2021-12-29
TA创建的收藏夹 TA关注的收藏夹
TA关注的人