Hadoop 基础知识
MapReduce和传统关系型数据库比较
- 数据大小 PB GB
- 数据存取 批处理 交互式和批处理
- 更新 一次写入, 多次读取 多次读/写
- 事物 无 ACID
- 结构 读时模式 写时模式
- 完整性 低 高
- 横向扩展 线性的 非线性的
Hadoop安装
CDH下载: https://archive.cloudera.com/cdh5/cdh/5/
tar -xzf hadoop-2.6.0-cdh5.7.0.tar.gz #解压缩
export HADOOP_HOME=xxxxx #注册hadoop的环境变量
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin #注册hadoop可执行文件的目录
hadoop version #检验hadoop环境变量是否设置成功
Hadoop配置
Hadoop各个组件均可以在XML文件中配置。core-site.xml配置通用属性。 hdfs-site.xml文件配置HDFS属性。mapred-site.xml配置MapReduce. yarn-site.xml配置yarn属性. 文件均在*/etc/hadoop*子目录中
默认配置位于Hadoop安装路径 share/doc 下四个HTML文件中
Hadoop运行模式
- 独立(本地)模式: 无需运行任何守护进程, 所有程序均在一个JVM中运行, 适合开发阶段
- 伪分布模式: Hadoop守护进程运行在本地机器上, 模拟小集群
- 全分布模式: Hadoop守护进程运行在一个集群上.
在分布模式下启动HDFS和YARN守护进程, 还需要配置MapReduce以便使用YARN
组件名称 | 属性名称 | 独立模式 | 伪分布模式 | 全分布模式 |
---|---|---|---|---|
Common | fs.defaultFS | file:// | hdfs://localhost/ | hdfs://namenode/ |
HDFS | dfs.replication | N/A | 1 | 3(默认) |
MapReduce | mapreduce.framework.name | local | yarn | yarn |
YARN | yarn.resourcemanager.hostname | N/A | Localhost | resourcemanager |
yarn.nodemanager.aux-services | N/A |