Hadoop学习笔记（一）（Hadoop简介与环境搭建）

最新推荐文章于 2023-04-19 12:50:05 发布

无影风Victorz

最新推荐文章于 2023-04-19 12:50:05 发布

阅读量193

点赞数

分类专栏：大数据文章标签： hadoop

本文链接：https://blog.csdn.net/victorzzzz/article/details/82188728

版权

大数据专栏收录该内容

39 篇文章 1 订阅

订阅专栏

Hadoop

http://hadoop.apache.org/
对于Apache的顶级项目来说，projectname.apache.org
Hadoop: hadoop.apache.org
Hive: hive.apache.org
Spark: spark.apache.org
HBase: hbase.apache.org

为什么很多公司选择Hadoop作为大数据平台的解决方案？
1）源码开源
2）社区活跃、参与者很多 Spark
3）涉及到分布式存储和计算的方方面面：
   Flume进行数据采集
   Spark/MR/Hive等进行数据处理
   HDFS/HBase进行数据存储
4）已得到企业界的验证

Hadoop环境搭建：

1) 下载Hadoop
http://archive.cloudera.com/cdh5/cdh/5/2.6.0-cdh5.7.0

wget http://archive.cloudera.com/cdh5/cdh/5/hadoop-2.6.0-cdh5.7.0.tar.gz

2）安装jdk
   下载
   解压到app目录：tar -zxvf jdk-7u51-linux-x64.tar.gz -C ~/app/
   验证安装是否成功：~/app/jdk1.7.0_51/bin ./java -version
   建议把bin目录配置到系统环境变量(~/.bash_profile)中
       export JAVA_HOME=/home/hadoop/app/jdk1.7.0_51
       export PATH=$JAVA_HOME/bin:$PATH
   使得环境变量生效： source ~/.bash_profile
   验证java是否配置成功： java -v

3）机器参数设置
   hostname: hadoop001

   修改机器名: /etc/sysconfig/network
       NETWORKING=yes
       HOSTNAME=hadoop001

   设置ip和hostname的映射关系: /etc/hosts
       192.168.199.200 hadoop001
       127.0.0.1 localhost

4）安装ssh
   sudo yum install ssh
   ssh-keygen -t rsa
   cp ~/.ssh/id_rsa.pub ~/.ssh/authorized_keys
   chmod 600 ~/.ssh/authorized_keys

   ll 以点开头的文件是隐藏的 ls -al
   测试：ssh localhost

   ssh免密码登陆(本步骤可以省略，但是后面你重启hadoop进程时是需要手工输入密码才行)
       ssh-keygen -t rsa
       cp ~/.ssh/id_rsa.pub ~/.ssh/authorized_keys

5）Hadoop配置文件修改: ~/app/hadoop-2.6.0-cdh5.7.0/etc/hadoop
hadoop-env.sh
export JAVA_HOME=/home/hadoop/app/jdk1.7.0_51

   core-site.xml
       <property>
   <name>fs.defaultFS</name>
   <value>hdfs://hadoop001:8020</value>
   </property>

   <property>
   <name>hadoop.tmp.dir</name>
   <value>/home/hadoop/app/tmp</value>
   </property>

hdfs-site.xml
   <property>
   <name>dfs.replication</name>
   <value>3</value>
   </property>

slaves 配置datanode的hostname

6）格式化HDFS
注意：这一步操作，只是在第一次时执行，每次如果都格式化的话，那么HDFS上的数据就会被清空
bin/hdfs namenode -format

7）启动HDFS
sbin/start-dfs.sh

   验证是否启动成功:
       jps
           DataNode
           SecondaryNameNode
           NameNode

浏览器
http://hadoop001:50070/

8）停止HDFS
sbin/stop-dfs.sh

无影风Victorz

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Hadoop学习笔记（一）（Hadoop简介与环境搭建）

Hadoophttp://hadoop.apache.org/对于Apache的顶级项目来说，projectname.apache.orgHadoop: hadoop.apache.orgHive: hive.apache.orgSpark: spark.apache.orgHBase: hbase.apache.org为什么很多公司选择Hadoop作为大数据平台的解决方案？1...
复制链接

扫一扫