实验2 Spark和Hadoop的安装

实验2 Spark和Hadoop的安装


实验目的

  1. 掌握在Linux虚拟机中安装Hadoop和Spark的方法。
  2. 熟悉HDFS的基本使用方法。
  3. 掌握使用Spark访问本地文件和HDFS文件的方法。

实验平台

Ubuntu18.04
Spark2.4.0
Hadoop2.7.7
Python3.6.9


1、安装Hadoop和Spark

  • 零基础:参考林子雨《Spark编程基础》网站实验指南
  • 已入门:鄙人博客Spark伪分布式安装大全,快速搭建(我绝对没有打广告!)

2、HDFS常用操作

  1. 启动Hadoop,在HDFS中创建用户目录/user/hadoop(*-site.xml是这么写的)
$ cd /usr/local/hadoop
$ rm -rf tmp/
$ hdfs namenode -format
$ sbin/start-dfs.sh
# hadoop:50070

$ hdfs dfs -mkdir -p /usr/hadoop
# HDFS的web端出现/usr/hadoop
# 啊创错了
$ hdfs dfs -mkdir -p /user/hadoop
$ hdfs dfs -rm -r /usr
$ hdfs dfs -ls /
# 没有输出
  1. Linux系统的本地文件系统的/home/hadoop目录下新建一个文本文件test.txt,随便写点,然后上传到HDFS的/user/hadoop目录下
$ cd 
$ vim test.txt
$ hdfs dfs -put test.txt /user/hadoop/
$ hdfs dfs -ls /user/hadoop/ # 有
  1. 把HDFS中/user/hadoop目录下的test.txt文件,下载到Linux系统的本地文件系统中的/home/hadoop/下载目录下
$ hdfs dfs -get test.txt ~/下载
$ cd ~/下载
$ ls # 有
  1. 将HDFS中/user/hadoop目录下的test.txt文件的内容输出到终端中进行显示
$ hdfs dfs -cat test.txt
Hello Hadoop
Hello HDFS
Hadoop is good
HDFS is nice
  1. 在HDFS中的/user/hadoop目录下,创建子目录input,把HDFS中/user/hadoop目录下的test.txt,复制到/user/hadoop/input目录下
$ hdfs dfs -mkdir input
$ hdfs dfs -cp test.txt input/
$ hdfs dfs -ls input/
Found 1 items
-rw-r--r--   1 hadoop supergroup         52 2021-11-26 11:13 input/test.txt
$ hdfs dfs -ls /user/hadoop/
Found 2 items
drwxr-xr-x   - hadoop supergroup          0 2021-11-26 11:13 /user/hadoop/input
-rw-r--r--   1 hadoop supergroup         52 2021-11-26 11:04 /user/hadoop/test.txt
  1. 删除HDFS中/user/hadoop目录下的test.txt文件,删除HDFS中/user/hadoop目录下的input子目录及其子目录下的所有内容
$ hdfs dfs -rm test.txt
21/11/26 11:15:46 INFO fs.TrashPolicyDefault: Namenode trash configuration: Deletion interval = 0 minutes, Emptier interval = 0 minutes.
Deleted test.txt
$ hdfs dfs -ls ./
Found 1 items
drwxr-xr-x   - hadoop supergroup          0 2021-11-26 11:13 input

$ hdfs dfs -rm -r input/
21/11/26 11:16:39 INFO fs.TrashPolicyDefault: Namenode trash configuration: Deletion interval = 0 minutes, Emptier interval = 0 minutes.
Deleted input
$ hdfs dfs -ls ./
# 无输出

3、Spark读取文件系统的数据

  1. 在pyspark中读取Linux系统本地文件/home/hadoop/test.txt,然后统计出文件的行数
>>> localFile = sc.textFile("file:///home/hadoop/test.txt")
>>> localFile.count()
3
  1. 在pyspark中读取HDFS系统文件/user/hadoop/test.txt,统计出文件的行数
>>> hdfsFile = sc.textFile("test.txt")
# hdfsFile = sc.textFile("/user/hadoop/test.txt")
# hdfsFile = sc.textFile("hdfs://hadoop:9000/user/hadoop/test.txt")
>>> hdfsFile.count()
3
  1. 编写独立应用程序,读取HDFS系统文件/user/hadoop/test.txt,然后,统计出文件的行数;通过spark-submit提交到Spark中运行程序
$ vim test.py
from pyspark import SparkConf, SparkContext
conf = SparkConf().setMaster("local").setAppName("Count")
sc = SparkContext(conf = conf)
myFile = sc.textFile("hdfs://hadoop:9000/user/hadoop/test.txt")
myFile.count()

$ cd /usr/local/spark
$ ./bin/spark-submit ~/test.py
  • 7
    点赞
  • 30
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
本文主要总结了Linux基础及SparkHadoop安装和配置实验的经验和感悟。 1. Linux基础 在Linux基础实验中,我们学习了Linux的基本命令、文件系统、文件权限和用户管理等知识。这是Linux系统管理员的基本技能,也是大数据工程师必备的基础知识。 在实验过程中,我深刻体会到了Linux系统的强大和灵活性。Linux系统提供了丰富的命令和工具,可以轻松地进行系统管理、文件操作和网络通信等操作。同时,Linux系统的文件系统和文件权限非常严格,可以有效地保护系统安全和数据安全。因此,在日常工作中,我们要熟练掌握Linux系统,正确使用Linux命令,保证系统安全和稳定运行。 2. SparkHadoop安装和配置 在SparkHadoop安装和配置实验中,我们学习了大数据平台的基本组件和架构,并实践了SparkHadoop安装和配置过程。这是大数据工程师必备的技能,也是大数据应用开发的基础。 在实验过程中,我遇到了许多问题和挑战,例如环境配置、组件版本兼容性、集群设置和调试等。经过不断地尝试和调试,我逐步掌握了SparkHadoop的架构和工作原理,熟悉了它们的配置和使用方法。同时,我意识到了大数据平台的复杂性和多样性,需要不断学习和实践,才能掌握大数据技术的核心。 总结一下,Linux基础和SparkHadoop安装和配置是大数据工程师必备的基础知识,需要我们不断学习和实践。在实验过程中,我们要注意细节、坚持不懈,不断提升自己的能力和技能,才能成为一名优秀的大数据工程师。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值