大数据学习笔记(九)-大数据中的压缩

本文介绍了大数据中常见的压缩格式如gzip, bzip2, LZO和Snappy,强调了压缩技术在大数据计算中的重要考量因素——是否支持分割。详细讲解了如何编译Hadoop源码以支持Snappy,并提供了MapReduce中选择不同压缩方式的策略,以及配置Hive支持压缩的方法。" 139040462,7545813,大数据驱动的智慧银行:客户画像与风险管理,"['大数据', '金融科技', '智慧银行', '风险管理', '客户分析']
摘要由CSDN通过智能技术生成

1.常见压缩格式:
gzip,bizp2,LZO,Snappy
2.压缩技术使用原则:
缩小体积则需要更多的CPU计算量,存储数据倾向于大压缩比的压缩技术,根据实际情况选择合适的压缩技术。
3.压缩在大数据计算中的一个重要考量是压缩技术是否支持分割(split)
bzip2支持,LZO创建索引后支持
4.要让Hadoop支持压缩,需要对Hadoop源码进行编译
查看是否支持压缩:hadoop checknative
5.编译Hadoop源码
①软件需求:Maven,JDK,protocolBuffer 2.5.0,cmake 2.6,zlib-devel,openssl-devel
protobuf2.5.0安装:
下载源码:http://linux.linuxidc.com/index.php?folder=MjAxNcTq18rBzy8xMNTCLzEwyNUvQ2VudE9TN8/C08NKREsxLjex4NLrSGFkb29wLTIuNy4xyKu5/bPMz+q94g==
安装编译软件:

sudo yum install gcc
sudo yum install gcc-c++

安装编译protobuf

./configure
make
sudo make install
protoc --version
  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值