基于spark环境的中文文档词频统计程序(去停用词)

Linux系统下spark终端运行中文文档词频统计的python程序。

1.环境配置

*前提

(1) 由于spark是基于hadoop环境下运行的,所以要先完成hadoop的环境配置。
(2)完成hadoop环境配置后,再配置好spark环境。

这里采用的编程语言为python,完成以上两个步骤后,我们开始配置编程环境。

(1)在windows系统上下载python-3.7.3(不会的,网上有教程),并解压,然后将解压后的python包复制到spark文件夹下;
(2)在windows系统上下载jieba(python的一个中文分词库,不会的,网上有教程),并解压,同样将解压后的jieba包复制到spark文件夹下,然后进入spark终端jieba包setup.py文件所在目录下运行右侧代码: python setup.py install
例如
在这里插入图片描述

2.文件下载

(1)查询用的小说文件:在网上随意查找一篇小说,并复制到自己新建的txt文档中。
(2)中文停用词文件:在网上百度‘中文停用词’,大概有1890个左右,复制到自己新建的txt文档中。
(3)python程序:先在windows系统下编写测试好你的python程序是否可用,这样复制到linux系统下只需要改动一点点即可。将测试好的python程序保存为.py文件。

spark终端python程序运行代码
[yyl@master spark-2.4.2-bin-hadoop2.7]$ spark-submit --master spark://10:7077 dd.py

3.文件转码

(1)避免出现一切编码不匹配等问题(如下图),准备的中文中文停用词,查询用的小说,python程序等,统一使用utf-8编码。
在这里插入图片描述
(2)由于linux系统无法更改文档编码,以下操作均在windows下进行。将python程序文件以记事本方式打开,另存为如下图,将编码选为UTF-8,保存即可(如下图)。中文停用词及查询的txt文本文档均修改为UTF-8编码。然后复制到虚拟机中。
在这里插入图片描述
(3)在linux系统下,找到刚才复制过来的python文件,使用gedit打开python程序,并在里面添加如下代码:

import sys
reload(s
  • 0
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

蓝焰鱼

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值