希冀大数据spark词频统计上传文件

项目场景

通过希冀平台做大数据spark中词频统计实验时,上传文件总是出bug。


问题描述

这次实验那个上传文件困扰了很久,周二上午写的时候就是不对,然后就问了老师,老师说是因为没有上传的原因,然后我就一步步的按照实验介绍里的备注一个个的弄,但发现总是不成功,出现一堆bug,做‘创建基础RDD和键值对RDDs’测试的时候因为没有成功上传test文件,所以test导入不成功。
在这里插入图片描述

于是又重新上传文件到Hadoop等等,但提示我Java 找不到,弄了一个小时还是不行,于是周三晚上又开始重新弄,甚至系统桌面还原,但这次我创建Hadoop文件路径它竟然提示我内存不足!!!很令人气愤!我又来回根据实验指导书配置并重新还原了两次,还是不行,这个时候,又出现了连接的问题。
在这里插入图片描述

我朋友说你重启试试,于是我重启电脑,这下算是可以了。


解决方案

以下是我的正确操作步骤

  1. 下载实验附件,首先点击附件,全选里面的内容,并复制粘贴到主机桌面上。再通过更多——>上传文件到远程桌面,将文件上传到/mnt/cgshare中。

  2. 根据实验介绍的备注里的Hadoop的创建和文件路径,进行文件的上传。
    在这里插入图片描述

  3. 安装test_helper,首先切换到master节点下,通过pip3 install test_helper命令进行安装,其次切换到/usr/local/bin/python3.6/lib/python3.6/site-packages/test_helper目录,将文件夹中test_helper.py文件替换成实验数据中的test_helper.py文件(我这里的做法是自己用vim命令手动修改,即将文件里的内容通过delete键删除,再利用更多里的剪切板将附件里的test_helper.py的内容粘贴进去)
    在这里插入图片描述

  4. 涉及到测试时,需要在/usr/local/bin/python3.6/lib/python3.6/site-packages/test_helper目录下使用pyspark命令,所以在此目录下输入pyspark --master spark://master:7077
    在这里插入图片描述
    由图中可以看出此时的test的模块已经成功导入。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值