大数据技术生态介绍

目录

中低速处理

更高速处理

独立模块

更特制的系统/组件

调度系统

总结


中低速处理

HDFS:最底层的文件处理系统,用来管理和存储数据,让大量数据能够横跨不同机器;

Hadoop:大数据的操作系统,大数据集分布计算的标准工具;

MapReduce:第一代计算引擎,Map+Reduce模型,好用但笨重(大砍刀)–Haddop的分布式计算框架

Spark:Hadoop的分布式计算框架

GFS:Hadoop的通用并行框架

Tez, Spark:第二代计算引擎,让Map和Reduce过程更好用、界限更模糊,数据交换更灵活,加入内存缓存机制

Pig:接近脚本方式描述MapReduce,是更高层次、更抽象的描述算法和数据处理流程的语言层

Hive:把脚本和SQL语言翻译成MapReduce程序,逐渐成长为大数据仓库的核心部件

Impala, Presto, Drill:更轻量的SQL交互引擎,牺牲了一定的容错性保证(剔骨刀)

Hive on Tez/Spark:用Tez跑SQL

SparkSQL:用Spark跑SQL

底层HDFS,上面跑MapReduce/Tez/Spark,在上面跑Hive,Pig。或者HDFS上直接跑Impala,Drill,Presto。这解决了中低速数据处理的要求。


更高速处理

Streaming(流)计算:Storm是最流行的流计算平台

流计算:基本无延迟,但是要统计的东西必须事先知道


独立模块

KV Store:迅速找到与键值绑定的数据,速度极快


更特制的系统/组件

  • Mahout是分布式机器学习库
  • Protobuf是数据交换的编码和库
  • ZooKeeper是高一致性的分布存取协同系统

调度系统

Yarn:中央管理的重要组件


总结

Hadoop(大数据操作系统)–>GFS(文件系统)、MapReduce(计算框架)、Spark(并行框架)

数据生态圈就是一个厨房工具生态圈。为了做不同的菜,中国菜,日本菜,法国菜,你需要各种不同的工具。而且客人的需求正在复杂化,你的厨具不断被发明,也没有一个万用的厨具可以处理所有情况,因此它会变的越来越复杂。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值