第一章:Hadoop

1、hadoop是什么

1. hadoop是apache基金会旗下的一款顶级项目
2. 用于解决大数据集的存储和计算分析
3. 是用java语言开发,具有跨平台性
4. 开源的
5. 运行在廉价机器(商用硬件,和专业硬件)上,认为机器故障时常态
6. 利用集群的cpu的并发和计算能力,性能非常高。

2、hadoop的核心模块

1. Common: hadoop框架的通用模块
2. hdfs(hadoop distributed fileSystem),hadoop分布式存储文件系统,用于存储大数据集
3. mapreduce: hadoop的分布式计算框架,提供了移动计算而非移动数据的思想,利用并发提高计算能力。
4. yarn:hadoop的作业调度与资源管理框架(cpu,磁盘,内存)

3、google的三篇论文

1.《GFS》,2003发表,阐述了大数据集如何存储的问题,引入了分布式思想(一个整体拆成多个子部分,之间提供接口进行调用)
2.《Mapreduce》,2004发表,阐述了解决分布式文件系统上的大数据集如何快速的分析和计算的问题。
3.《bigtable》,2006发表,阐述了如何解决非结构化的数据不适合存储在关系型数据库中,提供了另外一种存储思想,NoSQL(not only sql)的概念

4、Hadoop的生态系统

 hadoop、spark、hbase、flink、zookeeper、 hive、sq

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值