Hadoop基础知识

这篇博客介绍了Hadoop基础知识,包括MapReduce与传统关系型数据库的区别,Hadoop的安装、配置和运行模式,特别是分布式环境的搭建步骤,如配置SSH、格式化HDFS、创建用户目录等。还提及了在CDH中使用IDEA进行开发的情况。
摘要由CSDN通过智能技术生成

Hadoop 基础知识

MapReduce和传统关系型数据库比较

  1. 数据大小 PB GB
  2. 数据存取 批处理 交互式和批处理
  3. 更新 一次写入, 多次读取 多次读/写
  4. 事物 无 ACID
  5. 结构 读时模式 写时模式
  6. 完整性 低 高
  7. 横向扩展 线性的 非线性的

Hadoop安装

CDH下载: https://archive.cloudera.com/cdh5/cdh/5/

tar -xzf hadoop-2.6.0-cdh5.7.0.tar.gz #解压缩
export HADOOP_HOME=xxxxx  #注册hadoop的环境变量
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin #注册hadoop可执行文件的目录
hadoop version #检验hadoop环境变量是否设置成功

Hadoop配置

Hadoop各个组件均可以在XML文件中配置。core-site.xml配置通用属性。 hdfs-site.xml文件配置HDFS属性。mapred-site.xml配置MapReduce. yarn-site.xml配置yarn属性. 文件均在*/etc/hadoop*子目录中

默认配置位于Hadoop安装路径 share/doc 下四个HTML文件中

Hadoop运行模式

  1. 独立(本地)模式: 无需运行任何守护进程, 所有程序均在一个JVM中运行, 适合开发阶段
  2. 伪分布模式: Hadoop守护进程运行在本地机器上, 模拟小集群
  3. 全分布模式: Hadoop守护进程运行在一个集群上.

在分布模式下启动HDFS和YARN守护进程, 还需要配置MapReduce以便使用YARN

组件名称 属性名称 独立模式 伪分布模式 全分布模式
Common fs.defaultFS file:// hdfs://localhost/ hdfs://namenode/
HDFS dfs.replication N/A 1 3(默认)
MapReduce mapreduce.framework.name local yarn yarn
YARN yarn.resourcemanager.hostname N/A Localhost resourcemanager
yarn.nodemanager.aux-services N/A
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值