大数据的压缩与存储

压缩

压缩的好处

1.提升磁盘的利用率
2.加速网络传输

压缩的坏处

压缩解压需要消耗cpu

压缩的技术

  • 有损
  • 无损

压缩比

源文件1.4G

压缩技术剩余大小
snappy701M
Lz4693M
LZO684M
gzip447M
Bzip2390M

压缩得越小,消耗的时间越多,速度越慢

分片

bzip,lzo(需要创建索引 create index) 支持分片,其余压缩方式都不支持分片
压缩的位置讲解
三个方框是三个可以进行压缩的阶段

  1. 阶段1是输入的阶段,要用可分片的压缩方式
  2. 要用速度快的
  3. 分情况:如果数据用于归档,采用高压缩比的压缩方式;如果数据用于下一个作业输入,要用可分片的

行式存储与列式存储

  • 行式存储:所有数据都存储在一个块中;适合读所有数据的情况;如果只需要读其中几列,它会把所有数据都出来 [textfile]
  • 列式存储:数据存在多个块中;适合读部分数据;读所有数据时,会发生数据重组 [orc,parquet]
    大数据中,99%的情况都用列式存储
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值