1、Hadoop简介:什么是Hadoop呢?Hadoop是一个开源分布式系统基础架构 ,用户可以在不了解分布式底层细节的情况下,开发分布式程序,利用集群的威力进行高速的运算和存储,适合处理非结构化数据。
2、Hadoop生态圈:什么组件组成了Hadoop的生态圈?Hadoop的生态圈组成为:数据存储、数据集成、数据处理和其他进行数据分析的专门工具。
HDFS:HDFS是一种数据保存机制,数据被保存在集群中,数据被写入一次,读取多次
MapReduce:MapReduce是一个分布式并行处理的框架模型,可以实现以并行的方式访问数据
Hbase:是建立在HDFS上,面向列的NoSQL数据库,用于快速读/写大量数据。
ZooKeeper:用于Hadoop的分布式协调服务,Hadoop的许多组件依赖于ZooKeeper,运行在计算机集群上面,用于管理Hadoop操作。
Hive:类似于SQL高级语言,用于运行存储在Hadoop上的查询语句。
pig:他是MapReduce编程的复杂性的抽象,包含运行环境和用于分析Hadoop数据集的脚本语言。
Sqoop:是一个连接工具,用于在数据仓库、关系数据库和Hadoop之间转移数据。
3、Hadoop安装:分布式环境运行在带有Linux操作系统的虚拟机上。
那么具体安装Hadoop的步骤是什么呢?
1)下载Hadoop安装包
2)安装Hadoop安装包
3)配置Hadoop
4)复制虚拟机
5)建立互信关系
6)启动Hadoop
7)测试系统