基于spark环境的中文文档词频统计程序（去停用词）

最新推荐文章于 2022-06-20 15:01:07 发布

蓝焰鱼

最新推荐文章于 2022-06-20 15:01:07 发布

阅读量2.2k

点赞数

分类专栏：编程文章标签：中文词频统计程序 spark运行python程序

本文链接：https://blog.csdn.net/weixin_43488742/article/details/90701900

版权

这篇博客介绍了如何在Linux系统下，利用Spark环境运行Python程序进行中文文档的词频统计。首先，需要配置Hadoop和Spark环境，接着下载Python 3.7.3和jieba分词库，并将其放置在Spark目录下。然后，下载小说文档和中文停用词表，编写Python程序并转为UTF-8编码。最后，处理可能出现的编码问题，通过在sitecustomize.py文件中添加代码确保正确运行。

摘要由CSDN通过智能技术生成

Linux系统下spark终端运行中文文档词频统计的python程序。

1.环境配置

*前提

（1）由于spark是基于hadoop环境下运行的，所以要先完成hadoop的环境配置。
（2）完成hadoop环境配置后，再配置好spark环境。

这里采用的编程语言为python,完成以上两个步骤后，我们开始配置编程环境。

（1）在windows系统上下载python-3.7.3(不会的，网上有教程)，并解压，然后将解压后的python包复制到spark文件夹下；
（2）在windows系统上下载jieba(python的一个中文分词库，不会的，网上有教程)，并解压，同样将解压后的jieba包复制到spark文件夹下，然后进入spark终端jieba包setup.py文件所在目录下运行右侧代码： python setup.py install
例如

2.文件下载

（1）查询用的小说文件：在网上随意查找一篇小说，并复制到自己新建的txt文档中。
（2）中文停用词文件：在网上百度‘中文停用词’，大概有1890个左右，复制到自己新建的txt文档中。
（3）python程序：先在windows系统下编写测试好你的python程序是否可用，这样复制到linux系统下只需要改动一点点即可。将测试好的python程序保存为.py文件。

spark终端python程序运行代码
[yyl@master spark-2.4.2-bin-hadoop2.7]$ spark-submit --master spark://10:7077 dd.py

3.文件转码

（1）避免出现一切编码不匹配等问题（如下图），准备的中文中文停用词，查询用的小说，python程序等，统一使用utf-8编码。

（2）由于linux系统无法更改文档编码，以下操作均在windows下进行。将python程序文件以记事本方式打开，另存为如下图，将编码选为UTF-8，保存即可（如下图）。中文停用词及查询的txt文本文档均修改为UTF-8编码。然后复制到虚拟机中。

（3）在linux系统下，找到刚才复制过来的python文件，使用gedit打开python程序，并在里面添加如下代码：
import sys
reload(s