一、Google三大数据技术
1、MapReduce BigTable HDFS
大数据处理技术:
批数据处理技术 --> MapReduce
流数据处理技术 --> Storm
大图数据处理技术 --> Pregel
二、Hadoop的功能与优势
1、组成: a、HDFS:分布式文件系统 存储海量数据
b、MapReduce: 并行处理框架 实现任务分解与调度
2、做什么: 搭建大型数据仓库 PB级数据的存储 处理 分析 统计等任务
3、优势: 高扩展 低成本 成熟的生态圈
4、应用 Facebook Yahoo LinkedIn Hulu Intel
三、Hadoop的安装配置
1、UnitedStack租用云主机
2、安装JDK 设置环境变量
vim /etc/profile
export JAVA_HOME=安装路径
expert JRE_HOME=$JAVA_HOME/jre
expert CLASSPATH=$JAVA_HOME/lib:$JRE_HOME/lib:$CLASSPATH
expert PATH=$JAVA_HOME/bin:$JRE_HOME/bin:$PATH
保存后 使它生效:
source /etc/profile
3、下载并解压hadoop 配置相关xml文件
a、配置 hadoop-env.sh 把JAVA_HOME的#注释去掉 路径改为具体的JDK安装路径
b、配置 core-site.xml
Hadoop的工作目录
<property>
<name>hadoop.tmp.dir</name>
<value>/hadoop</value>
</property>
Hadoop的namenode元数据的存放地址
<property>
<name>dfs.name.dir</name>
<value>/hadoop/name</value>
</property>
namenode的访问方式
<property>
<name>fs.default.name</name>
<value>hdfs://imooc:9000</value>
</property>
c、hdfs-site.xml
文件系统的数据存放目录
<property>
<name>dfs.data.dir</name>
<value>/hadoop/data</value>
</property>
d、mapred-site.xml
任务调度器的访问方式
<property>
<name>mapred.job.tracker</name>
<value>imooc:9001</value>
</property>
e、设置Hadoop的工作目录
vim /etx/profile
export HADOOP_HOME=hadoop的安装路径
expert PATH=$JAVA_HOME/bin:$JRE_HOME/bin:$HADOOP_HOME/bin:$PATH
保存 使生效
用 hadoop命令可以测试是否配置好hadoop
f、格式化namenode: hadoop namenode -format
g、启动 start-all.sh
h、使用jps命令查看hadoop是否正常运行,一般正常情况下有以下进程:
JobTracker Jps DataNode TaskTracker NameNode SecondaryNameNode