Hadoop基本概念
-
在当下的IT领域,大数据很“热”,实现大数据场 景的Hadoop系列产品更“热”。
-
Hadoop是一个开源的分布式系统基础架构,由 Apache基金会开发。
-
此架构可以帮助用户可以在不了解分布式底层细 节的情况下,开发分布式程序。
-
目前,主要的发展版本有Hadoop1.0和Hadoop2.0 。
-
名字来源于创始人——Doug Cutting儿子的一个黄 色的玩具大象
-
雏形:Doug Cutting用java代码编写,实现与 Google类似的全文搜索功能,它提供了全文检索 引擎的架构,包括完整的查询引擎和索引引擎。
-
2001年年底成为apache软件基金会jakarta的一个 子项目。
-
Hadoop起源于Google的集群系统
-
Google的三大核心的分布式技术
– 2003年,GFS分布式存储系统
– 2004年,MapReduce分布式处理技术
– 2006年,BigTable分布式数据库
-
对于大数据量的场景,迫使Doug Cutting学习 和模仿Google解决这些问题。
目前最新应用领域
农业 • 地震台网监测 • 医疗 • 可穿戴设备 • 无人驾驶汽车
讨论课题
任何事物都具有两面性,请分组讨论:在你的眼中“大数据”处理技术给人类带来了哪些好处? 哪些问题?
课程安排
课程安排分为理论课(32学时)和实验课(16学时)
-
理论课
– Hadoop概述
– YARN设计理念与基础架构
– MapReduce编程模型
– HDFS详解
-
实验课
– Hadoop2.0的环境搭建
– MapReduce开发环境搭建
– 调试运行编写MapReduce词频统计程序
– MapReduce程序编程
课程目标
• 了解YARN的基本工作原理
• 了解Hadoop2.0的两大核心模块的工作原理
• 熟悉Hadoop2.0环境搭建、配置与管理
• 熟练向Hadoop提交作业以及查询作业运行情况
• 能书写Map-Reduce程序 • 能熟练地对HDFS中的文件进行管理
参考文献
• Hadoop实战
• Hadoop权威指南
课堂笔记
(1)理解 集群 分布式 数据中心的概念 以及其中的关系?
答:集群大抵是指硬件,分布式大抵是指软件,集群加上分布式的商业化体现就是数据中心。
(2)理解可迁移技术与负载均衡的概念。
答:举个例子,一个游戏,有三个区,每个区各有三台服务器。我们都知道晚饭过后,登录游戏的人很多,倘若一区爆满,二区三区人相对比较少,此时可迁移技术就派上了用场,把二三区空闲的服务器迁移到一区或者将另外备用的服务器给一区,进而负载均衡。同样的道理,在游戏中,过不了的动画,副本排队,卡下线,都和可迁移技术和负载均衡有关。再举个例子,深夜的时候,打游戏的人相对会少很多,这时,运营商可能就会关掉二区三区的服务器,只留下一区的服务器,以此来减少成本。
(3)理解互联网 云计算 大数据 人工智能的概念 以及彼此之间的关系?
答:略。
————————————————————————————————