1:什么是hadoop
官网上关于hadoop的解释是:
The Apache™ Hadoop® project develops open-source software for reliable, scalable, distributed computing.
>>开源的
>>可靠的
可以及时进行数据备份
大数据损坏后,能及时恢复
>>可扩展性
对于大的集群,机器的增加或者减少不会影响数据的计算
>>分布式计算
对于一个任务,我们可以对它进行瓜分
2:解决的问题
>>HDFS的分布式文件系统,解决了海量数据的存储
特点:
存海量数据
动态添加机器,并不会影响整个分布式文件系统的存储
备份机制来快速回复损坏的数据文件
>>mapreduce 解决了海量数据分析
特点:
海量
核心理念--分而治之
将海量的数据切片,分发到多个机器节点上,
在各个机器上对数据运行同样的程序,并输出对应的结果
最后人工将各个机器上的结果合并,再统计、分析
>>yarn 解决集群资源的管理和任务调度
特点:
资源(CPU,内存)管理,对于集群中的资源,使用了多少,剩余了多少。
任务调度,通过资源管理,来合理的安排任务调度
3.特点:
>>扩容能力,
>>成本低
>>高效率
>>可靠性
4.背景
三大论文
GFS -HDFS
mapreduce
bigtable -HBASE
5.应用场景
>>日志分析
>>推荐系统
>>路况信息
>>天气预报
6.hadoop生态圈
7.hadoop的核心内容
官网:
The project includes these modules:
Hadoop Common: The common utilities that support the other Hadoop modules.
Hadoop Distributed File System (HDFS™): A distributed file system that provides high-throughput access to application data.
Hadoop YARN: A framework for job scheduling and cluster resource management.
Hadoop MapReduce: A YARN-based system for parallel processing of large data sets.