文章目录
1. Haoop简介
MFS作为分布式文件系统,有很强的灵活扩展性,常用于网盘等;但做数据挖掘,分析用户数据时,常用Hadoop生态下的HDFS文件系统;
- HDFS起源于GFS,GFS为Google的分布式文件系统Google File System
- MapReduce:Google的MapReduce开源分布式并行计算框架,演变为Hadoop MapReduce
- BigTable:一个大型的分布式数据库,演变为Hbase
Hadoop包含3各主流版本:
- Apache基金会Hadoop,原生版本,需要考虑不同软件兼容性,无UI界面
- Cloudera版本,简称CDH
- Hortonworks版本,简称HDP
Hadoop的框架最核心的设计就是:HDFS和MapReduce
- HDFS为海量的数据提供了存储
- MapReduce为海量的数据提供了计算
大数据技术生态体系:
Hadoop框架包括以下四个模块:
- Hadoop Common:这些时其他Hadoop模块所需的Java库和实用程序。这些库提供文件系统和操作系统级抽象,并包含启动Hadoop所需的Java文件和脚本。
- Hadoop YARN:这是一个用于作业调度和集群资源管理的框架
- Hadoop DIstributed File System(HDFS):分布式文件系统,提供对应用程序数据的高吞吐量访问
- Hadoop MapReduce:这是基于YARN的用于并行处理大数据集的系统
2. 安装单机版Hadoop
Apache版本官网
新建一个虚拟机server11
新建一个用户hadoop并给予密码:useradd hadoop
,echo ***|passwd --stdin hadoop
首先在server11上准备安装文件:scp hadoop-3.2.1.tar.gz jdk-8u181-linux-x64.tar.gz server11:
放在hadoop主目录下并修改拥有者为hadoop,切换hadoop用户:
解压:tar zxf jdk-8u181-linux-x64.tar.gz
解压完成后的为二进制程序,可以直接调用,做软链接至java:ln -s jdk1.8.0_181/ java
同样解压软链接:tar zxf hadoo