Hadoop学习笔记(一)

Hadoop是一个由Apache基金会所开发的分布式系统基础架构。主要是由HDFSMapReduce组成。

大数据解决四大核心问题:

1、数据的存储(Big Data Storage),HDFS

2、数据的计算(Data Calculation),MapReduce、Spark、Flink

3、数据的查询(Consensus Data),Hbase

4、数据的挖掘(Data mining),Hive、Impala、Pig

Hadoop生态系统包含:

1、HDFS(分布式文件系统)
2、MapReduce(分布式计算框架)
3、Spark(分布式计算框架,不同于MapReduce的是——Job中间输出结果可以保存在内存中,从而不再需要读写HDFS)
4、Flink(分布式计算框架,类似于Spark,但在部分设计思想有较大出入。)
5、Yarn/Mesos(分布式资源管理器,YARN是下一代MapReduce,即MRv2)
6、Zookeeper(分布式协作服务,Hadoop的许多组件依赖于Zookeeper,它运行在计算机集群上面,用于管理Hadoop操作。)
7、Sqoop(数据同步工具,用于在关系数据库、数据仓库和Hadoop之间转移数据)
8、Hive/Impala(基于Hadoop的数据仓库工具,Hive通常用于离线分析,并不适合那些需要高实时性的应用)
9、HBase(分布式列存储数据库,HBase提供了对大规模数据的随机、实时读写访问)
10、Flume(日志收集工具)
11、Kafka(分布式消息队列,Kafka是一种高吞吐量的分布式发布订阅消息系统)
12、Oozie(工作流调度器)
13、Pig(数据分析平台,Pig是一个基于 Hadoop的大规模数据分析平台)

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

乐乐Gold

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值