一.大数据概述
二.大数据与生活息息相关
三.Hadoop概述
四.Hadoop生态系统概述
五.Hadoop发型版对比
一.大数据概述
二.大数据与生活息息相关
大数据带来的革命性变革
1)成本降低,能用pc机,就不会大型机或者高端存储设备。
2)软件容错,硬件故障视为常态,通过软件来保证高可靠。
3)简化分布式并行计算,无需控制节点同步和数据的交换。
三.Hadoop概述
adoop(大象)
Hadoop是什么?
一个分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力高度运算和存储。
hadoop包括哪些模块?
1.Hadoop Common:hadoop工具
2.Hadoop Distributed file System(HDFS):分布式的文件系统。
3.Hadoop YARN:作业调度和集群管理框架。资源管理系统
4.Hadoop MapReduce:在YARN基础上,并行处理。分布式计算框架。
四.Hadoop生态系统概述
Hadoop生态系统:
HDFS:hadoop Distributed File System 分布式的文件系统
HBase:大数据的数据库
Yarn Map Reduce v2:资源管理系统
Hive:Sql query.只需要写sql语句,
R Connectors:R语言,是需要统计的语言。
Mahout:不再做更新了。
pig:脚本。只要写些脚本,就能做大数据的统计操作。但是在工作当中是非常非常少的。
OOzie:是个工作流workflow。
zookeeper:分布式的协调。比如在HDFS的主备可以使用。
Flume:日志的收集框架。
Sqoop:数据的交换,data exchange
五.Hadoop发型版对比
hadoop版本选择
发行版选项
1.Apache Hadoop
2.CDH:Cloudera Distributed Hadoop(推荐使用)
3.HDP:Hortonworks Data Platform
cdh下载地址
http://archive.cloudera.com/cdh5/cdh/5/
hive,hadoop等软件下载的版本号要一样。
CDH和HDP是不同公司发行的。
CM:通过web就能够快速的搭建集群。
大数据学习选择的版本号是hadoop-2.6.0-cdh5.7.0.tar.gz
练习题
1.下面关于云计算说法正确的是()
A.云计算是基于互联网的相关服务的增加,使用和交付模式,通常涉及通过互联网来提供动态易扩展且经常是虚拟化的资源
B.云计算是一种按使用量付费的模式,这种模式提供可用的,便捷的,按需的网络访问,进入可配置的计算资源共享池(资源包括网络,服务器,存储,应用软件 ,服务),这些资源能够被快速提供,只需投入很少的管理工作,或与服务供应商进行很少的交互。
C.云计算只是传说,并没有实行。
D.云计算常与网络计算,效用计算,自主计算想混淆。
2.Hadoop2.x采用什么技术构建源代码()。
A.ant
B.ivy
C.maven
D.makefile
3.下面哪些属于hadoop的优势()
A.低成本 B.高扩展性 C.高效性 D.高容错性。
4.下面哪些是Hadoop的核心组件()
A.Hive B.HBase C.HDFS D.MapReduce
5.大数据处理系统,除了Hadoop和Spark,还有()
A.windows B.storm. C.mac d.linux
6.Hadoop是由()所开发。
A.apache基金会 B.甲骨文公司 C.W3C B.google公司
答案
1.ABD 2.C 3.ABCD 4.CD 5.B 6.A