文本聚类的处理流程

1、文本聚类的处理流程

2、将文档分词、词性标注、实体标注,去除停用词等将一片文章形成由多个词组成的向量。最后根据文档的集合,形成一个词的向量空间。行代表一片文章,列代表词。如下图:


n代表n篇文章,m代表有m个单词组成向量空间

3、由于向量空间的词太多,需要降维

4、根据降维后的特征,计算每一篇文档中每一个词的权重,采用TF-IDF方式
5、有了这个数据矩阵之后,我们需要计算二二文档之间的相异度。

在算相异度之前,我们需要对降维后的矩阵进行规范化。

规范化的方法如下:

(1)最小最大规范化

(2)z分数规范化

(3)小数定标

如何计算文档之间的相异度呢?

主要是使用距离或者相关系数判断二篇文档的相似性

距离的定义:


距离的常用方法:



相关系数的定义与常用的方法:




6、经过将二二对象进行计算,得到相异矩阵如下:


7、使用K-means算法将相异矩阵出入到该算法中,就可以得出不同的聚类

k-means算法如下:


8、将聚类的结果进行主题的抽取

9、评估聚类算法


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值