Spark应用HanLP对中文语料进行文本挖掘--聚类

最新推荐文章于 2024-02-18 16:44:11 发布

fansy1990

最新推荐文章于 2024-02-18 16:44:11 发布

阅读量7.8k

点赞数 1

文章标签： spark 中文文本挖掘 TF-IDF HanPL 文本聚类

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/fansy1990/article/details/77577061

版权

本文介绍了如何结合Spark和HanLP库进行中文文本挖掘，通过文本预处理、分词、TF-IDF转换和KMeans聚类，对中文语料进行深入分析并评估聚类效果。

摘要由CSDN通过智能技术生成

软件：IDEA2014、Maven、HanLP、JDK；

用到的知识：HanLP、Spark TF-IDF、Spark kmeans、Spark mapPartition;

用到的数据集：http://www.threedweb.cn/thread-1288-1-1.html（不需要下载，已经包含在工程里面）；

工程下载：https://github.com/fansy1990/hanlp-test 。

1. 问题描述

现在有一个中文文本数据集，这个数据集已经对其中的文本做了分类，如下：

其中每个文件夹中含有个数不等的文件，比如环境有200个，艺术有248个；同时，每个文件的内容基本上就是一些新闻报道或者中文描述，如下：

现在需要做的就是，把这些文档进行聚类，看其和原始给定的类别的重合度有多少，这样也可以反过来验证我们聚类算法的正确度。

2. 解决思路：

2.1 文本预处理：

1. 由于文件的编码是GBK的，读取到Spark中全部是乱码，所以先使用Java把代码转为UTF8编码；

2. 由于文本存在多个文件中（大概2k多），使用Spark的wholeTextFile读取速度太慢，所以考虑把这些文件全部合并为一个文件，这时又结合1.的转变编码，所以在转变编码的时候就直接把所有的数据存入同一个文件中；

其存储的格式为：每行：文件名.txt\t文件内容

如： 41.txt 【日期】199601....

这样子的话，就可以通过.txt\t 来对每行文本进行分割，得到其文件名以及文件内容，这里每行其实就是一个文件了。

2.2 分词

分词直接采用HanLP的分词来做，HanLP这里选择两种：Standard和NLP(还有一种就是HighSpeed，但是这个木有用户自定义词典，所以前期考虑先用两种)，具体参考：https://github.com/hankcs/HanLP ;

2.3 词转换为词向量

在Kmeans算法中，一个样本需要使用数值类型，所以需要把文本转为数值向量形式，这里在Spark中有两种方式。其一，是使用TF-IDF；其二，使用Word2Vec。这里暂时使用了TF-IDF算法来进行，这个算法需要提供一个numFeatures，这个值越大其效果也越好，但是相应的计算时间也越长，后面也可以通过实验验证。

2.4 使用每个文档的词向量进行聚类建模

在进行聚类建模的时候，需要提供一个初始的聚类个数，这里面设置为10，因为我们的数据是有10个分组的。但是在实际的情况下，一般这个值是需要通过实验来验证得到的。

2.5 对聚类后的结果进行评估

这里面采用的思路是：

1. 得到聚类模型后，对原始数据进行分类，得到原始文件名和预测的分类id的二元组(fileName,predictId)；

2. 针对（fileName，predictId），得到（fileNameFirstChar ,fileNameFirstChar.toInt - predictId）的值，这里需要注意的是fileNameFirstChar其实就是代表这个文件的原始所属类别了。

3. 这里有一个一般假设，就是使用kmeans模型预测

最低0.47元/天解锁文章

关注

1
点赞
踩
22

收藏

觉得还不错? 一键收藏
7
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论 7

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。