所谓大数据指的是数据量大,并且复杂多变的数据,为处理这些问题新的技术应运而生,hadoop主要就是用于解决大数据的存储问题以及计算问题
Hadoop是Apache基金下的分布式系统架构,其实广义上讲hadoop指的是Hadoop生态圈
Hadoop三大发行版本:Apache、Cloudera、Hortonworks。
Apache版本最原始(最基础)的版本,对于入门学习最好。
Cloudera Hadoop 在大型互联网企业中用的较多,相较于Apache版本在兼容性,安全性,稳定性上有所增强。接下来要安装的就是这个版本
Hortonworks文档较好。
下载
wget http://archive.cloudera.com/cdh5/cdh/5/hadoop-2.6.0-cdh5.15.1.tar.gz
解压,修改配置文件
tar -zxvf hadoop-2.6.0-cdh5.15.1.tar.gz
hadoop软件包常见目录说明
bin:hadoop客户端名单
etc/hadoop:hadoop相关的配置文件存放目录
sbin:启动hadoop相关进程的脚本
share:常用例子
修改Hadoop配置文件,注意地址是0.0.0.0:端口号,否则无法被外部访问
cd etc/hadoop vim hadoop-env.sh
//配置jdk路径
//查看java_home: echo $JAVA_HOME
export JAVA_HOME=/root/jdk1.8.0_91
//默认hdfs路径 ip配置的时0.0.0.0 不能配置127.0.0.1 如果配置表示只有本地路径可以访问
vim core-site.xml
<property>
<name>fs.defaultFS</name>