【Spark实战】慕课网日志分析：Hadoop环境配置和基本操作

最新推荐文章于 2024-06-29 10:21:58 发布

Jack Mai

最新推荐文章于 2024-06-29 10:21:58 发布

阅读量788

点赞数

分类专栏：数据科学文章标签： spark 慕课网日志分析 Hadoop 环境配置

本文链接：https://blog.csdn.net/MASILEJFOAISEGJIAE/article/details/89242039

版权

数据科学专栏收录该内容

15 篇文章 2 订阅

订阅专栏

重要路径说明：

app：所有软件的安装目录
software：安装包目录
data：测试数据目录
source：软件源码目录
app/hadoop-2.6.0-cdh5.7.0/bin：包含客户端相关的脚本
app/hadoop-2.6.0-cdh5.7.0/sbin/：包含服务端相关的脚本，例如start-yarn.sh start-dfs.sh

查看虚拟机ip

命令：ifconfig

修改主机名到ip地址的映射

命令：sudo vim /etc/hosts

HDFS环境配置

修改app/hadoop-2.6.0-cdh5.7.0/etc/hadoop的三个文件：
1.hadoop-env.sh
根据命令echo $JAVA_HOME可知：

[hadoop@hadoop001 hadoop]$ echo $JAVA_HOME
/home/hadoop/app/jdk1.7.0_51

因此，将JAVA_HOME修改为/home/hadoop/app/jdk1.7.0_51：

2.core-site.xml
原来是

<configuration>
<property>
   <name>fs.default.name</name>
   <value>hdfs://hadoop001:8020</value>
</property>
</configuration>

现修改为：

<configuration>
<property>
   <name>fs.defaultFS</name>
   <value>hdfs://hadoop001:8020</value>
</property>
</configuration>

3.hdfs-site.xml
复制个数设置为1，不用改，这个镜像里面已经默认配置好了。

<property>
    <name>dfs.replication</name>
    <value>1</value>
</property>

格式化HDFS

格式化后，HDFS上的数据会被清空，因此只在第一次的时候格式化。
执行命令：./bin/hdfs namenode -format

使用这个教程的linux镜像直接格式化的话，会有个坑：jps后发现DataNode不能正常运行，解决方法在此。

如果格式化成功，则会有这么一句提示：

19/04/12 02:10:34 INFO common.Storage: Storage directory /home/hadoop/tmp/dfs/name has been successfully formatted.

启动和停止HDFS

启动：./start-dfs.sh
停止：./stop-dfs.sh
使用jps查看NameNode、DataNode、SecondaryNameNode是否都正常运行：

此外，也可以在浏览器中输入：http://192.168.89.130:50070，结果如下：

查看HDFS文件

hadoop fs -ls /

启动yarn

./sbin/start-yarn.sh，jps可见增加了ResourceManager和NodeManager：

启动hive

./app/hive-1.1.0-cdh5.7.0/bin/hive

启动spark

使用local模式，最后要加上mysql驱动：
./app/spark-2.1.0-bin-2.6.0-cdh5.7.0/bin/spark-shell --master local[2] --jars ~/software/mysql-connector-java-5.1.27-bin.jar