大数据的数据体系、采集、存储技术总结

大数据的数据体系,自底向上包括四个层次:

1 数据采集与清洗层

2 数据加工与汇聚层

3 数据能力与开放层(体现平台即服务PAAS的概念)

4 数据价值与应用层

 

大数据采集技术:实时与离线采集

实时流处理模式:通过K-V查询接口,以流处理模式,逐条传输、ETL,融合并入库至业务平台。

离线批处理模式:通过SFTP传输接口,将数据离线批量采集至业务平台缓存中,再进行批量ETL、融合并入库到业务平台。

 

大数据的采集:基于开源爬虫Webmagic与内存数据库Redis的分布式爬虫技术

 

分布式存储技术:

使用大量普通PC服务器通过Internet互联,对外作为一个整体提供存储服务,以较低的成本满足大规模的存储需求

 

分布式块存储:将分布式的大量服务器硬盘经过分布式块存储变成统一的逻辑硬盘,再按逻辑卷分给虚拟机。适合于作为云主机资源池共享存储,IO要求高。

 

分布式文件存储:将大文件切分成多个小文件块。并将小文件块分布存储在服和器节点上,基于元数据服务器控制各个数据节点,适合于大数据文件的存储和处理,存储与计算一体化,例如作为Hadoop Spark的底层文件系统。

 

分布式对象存储:扁平化,文件之间没有层级或类型关系,适合于各种大小的海量文件基于互联网在线存储,访问和备份,如云存储服务等。

  • 4
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值