项目场景
通过希冀平台做大数据spark中词频统计实验时,上传文件总是出bug。
问题描述
这次实验那个上传文件困扰了很久,周二上午写的时候就是不对,然后就问了老师,老师说是因为没有上传的原因,然后我就一步步的按照实验介绍里的备注一个个的弄,但发现总是不成功,出现一堆bug,做‘创建基础RDD和键值对RDDs’测试的时候因为没有成功上传test文件,所以test导入不成功。
于是又重新上传文件到Hadoop等等,但提示我Java 找不到,弄了一个小时还是不行,于是周三晚上又开始重新弄,甚至系统桌面还原,但这次我创建Hadoop文件路径它竟然提示我内存不足!!!很令人气愤!我又来回根据实验指导书配置并重新还原了两次,还是不行,这个时候,又出现了连接的问题。
我朋友说你重启试试,于是我重启电脑,这下算是可以了。
解决方案
以下是我的正确操作步骤
-
下载实验附件,首先点击附件,全选里面的内容,并复制粘贴到主机桌面上。再通过更多——>上传文件到远程桌面,将文件上传到/mnt/cgshare中。
-
根据实验介绍的备注里的Hadoop的创建和文件路径,进行文件的上传。
-
安装test_helper,首先切换到master节点下,通过pip3 install test_helper命令进行安装,其次切换到/usr/local/bin/python3.6/lib/python3.6/site-packages/test_helper目录,将文件夹中test_helper.py文件替换成实验数据中的test_helper.py文件(我这里的做法是自己用vim命令手动修改,即将文件里的内容通过delete键删除,再利用更多里的剪切板将附件里的test_helper.py的内容粘贴进去)
-
涉及到测试时,需要在/usr/local/bin/python3.6/lib/python3.6/site-packages/test_helper目录下使用pyspark命令,所以在此目录下输入pyspark --master spark://master:7077
由图中可以看出此时的test的模块已经成功导入。