大数据——粗谈Hadoop生态系统

首先,我们来介绍一下什么是Hadoop。

 

20181214183817784.PNG

 

Hadoop最核心的部件有两个,一为HDFS,所谓的HDFS,就是分布式的文件存储系统。

二为Mapreduce,即为分布式的计算系统(分布式离线的计算框架)。

上述的两个部件,解决了大数据的存储问题,还有解决了大数据的计算问题。

剩下的基本上都是这两个所衍生出来的工具。

Maperduce的编程语言:

1、Jave(最原始的方式)

2、Hadoop Streaming(支持多语言)

3、Hadoop Pipes(支持C和C++)

Mahout提供的算法:分类、聚类、频繁模式挖掘、向量相似度计算、推荐引擎、降维、进化算法、回归分析等

Hive:是构建在Hadoop之上的数据仓库,用于解决海量结构化的日志数据的统计问题,其语言结构HQL,类似于SQL,但又不完全相同。

Pig:基于Hadoop的数据流执行引擎,利用MapReduce并行处理数据,使用Pig Latin语言表达数据流

Hive:即就是Hive2(Stinger),底层的算法引擎由Tez(DGA计算框架)替换MapReduce

Impala:可直接处理存储在HDFS上的数据,并在次写入数据到HDFS,具有良好的扩展性和容错性,适合快速交互式查询。

Oozie:

 

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Xa_L

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值