MapReduce进阶与经典案例

一,HDFS数据格式详解

数据存储空间是有限的,数据本身和增量是动态变化的,数据格式描述了数据保存在文件或者记录中的规则。HDFS中分为文件格式和压缩格式。

1,文件格式

文件格式按面向的存储形式不同,分为面向行和面向列的两大类文件格式。

面向行/列

类型名称

是否可切分

优点

缺点

适用场景

面向行

文本文件格式(.txt)

查看便编辑简单

无压缩占空间大、传输压力大、数据解析开销大

学习练习使用

面向行

sequenceFile序列文件格式(.seq)

原生支持、二进制kv存储、支持行和块压缩

本地查看不方便:小文件合并成kv结构后不易查看内部数据

生产环境使用、map输出的默认文件格式

面向列

rcfile文件格式(.rc)

数据加载快、查询快、空间利用率高、高负载能力

每一项都不是最高

学习生产均可

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值