前言
回顾之前讲了python语法编程 ,必修入门基础和网络编程,多线程/多进程/协程等方面的内容,后续讲到了数据库编程篇MySQL,Redis,MongoDB篇,和机器学习,全栈开发,数据分析前面没看的也不用往前翻,系列文已经整理好了:
1.跟我一起从零开始学python(一)编程语法必修
2.跟我一起从零开始学python(二)网络编程
3.跟我一起从零开始学python(三)多线程/多进程/协程
4.跟我一起从零开始学python(四)数据库编程:MySQL数据库
5.跟我一起从零开始学python(五)数据库编程:Redis数据库
6.跟我一起从零开始学python(六)数据库编程:MongoDB数据库
7.跟我一起从零开始学python(七)机器学习
8.跟我一起从零开始学python(八)全栈开发
9.跟我一起从零开始学python(九)数据分析
本系列文根据以下学习路线展开讲述,由于内容较多,:
关注我:python技术训练营,学习进阶一步到位
适用于零基础学习和进阶人群的python资源:
① 腾讯认证python完整项目实战教程笔记PDF
② 十几个大厂python面试专题PDF
③ python全套视频教程(零基础-高级进阶JS逆向)
④ 百个项目实战+源码+笔记
⑤ 编程语法-机器学习-全栈开发-数据分析-爬虫-APP逆向等全套项目+文档
推荐收藏!2万字图解Hadoop
今天我用图解的方式讲解Hadoop的用法,内容较长建议收藏,梳理不易,点赞支持。
学习 Python 编程,给我的经验就是:技术要学会分享、交流,不建议闭门造车。一个人可能走的很快、但一堆人可以走的更远。
第一部分:初识Hadoop
1.Hadoop介绍
- Hadoop是一个由Apache基金会所开发的分布式系统基础架构。
- 主要解决海量数据的存储和海量数据的分析计算的问题。
- 广义上来说,Hadoop 通常是指一个更广泛的概念——Hadoop 生态圈。
2.Hadoop的版本
hadoop的三大发行版本:Apache、Cloudera、Hortonworks。
- Apache版本最原始(最基础),对入门学习最好。
- Cloudera内部集成了很多大数据框架,对应产品CDH。
- Hortonworks文档较好,对应产品HDP 。
- Hortonwork和Cloudera合并
3.Hadoop的特点
高可靠性:Hadoop底层维护多个数据副本,即使某个计算单元存储出现故障,也不会导致数据丢失。
- 高拓展性:在集群之间分配任务数据,可方便的扩展数以万计节点。
- 高效性:在MapReduce的思想下,Hadoop是并行工作的,以加快任务处理速度。
- 高容错性:能够自动将失败的任务重新分配。
4.Hadoop的组成
Hadoop1.X版本的组成,MapReduce负责计算和计算所需的cpu、内存等资源的调度
Hadoop2.X版本的组成,增加了Yarn进行资源调度,原来的MapReduce只负责计算。
Hadoop3.X版本的组成没啥区别,在细节上还是有区别的。
5.HDFS
HDFS(Hadoop Distributed Fi