文本文档聚类算法概述

最新推荐文章于 2023-04-23 08:55:35 发布

weixin_33962923

最新推荐文章于 2023-04-23 08:55:35 发布

阅读量151

点赞数

文章标签：人工智能操作系统

1. 文档聚类要求

高维度：一个文档集包含成千上万个词条，每个词条构成文档向量中的一个维度
可扩展性：真实数据集包含成百上千的文档，大多数算法只在小数据集上效果好
高准确度：簇内高相似，簇间低相似
有意义的簇标签
无需先知的领域知识：对输入参数不敏感

2. 文档聚类方法

2.1 层次聚类方法

不同的AHC变体(02、03)采用不同的相似度测度方案。HC方法一旦执行合并或分裂就不能调整，缺乏灵活性，降低了聚类精度。
UPGMA被认为是层次聚类中准确性最高的方法(90)。由于UPGMA在簇间相似性计算上的复杂度高，导致其可扩展性差(03)。

2.2 划分聚类方法

Steinbach(00)指出BKM (02)在准确性和效率上好于基本的KM(99)和AHC(90)
基本KM和BKM相对来说效率较高，可扩展性好，计算复杂度与文档数成线性比。
KM算法的缺点是要求输入参数K，不适于发现大小相关较大的簇，对噪声敏感。
K中心点算法试图解决噪声问题，但计算成本高，可扩展性差。

2.3 基于频项集的聚类方法

使用频繁项集聚类事务数据产生了新的聚类标准：一个簇中的事务应共享多的频繁项，而不同的簇或多或少有不同的频繁项(99)。将文档看成事务，词条看成项，便可将该方法用于文档聚类。比如，包含windows的文档可能与renovation有关，包含apple的文档可能与水果有关；如果有较多文档同时包含了这两个词，这些文档可能谈到了同一个主题，即操作系统。(FTC)
HFTC (02) 试图解决FTC没有形成层次状簇的问题。在准确性上与BKM相当，但可扩展性差。另外HFTC依赖于所选项集的顺序。
FIHC (03) 满足聚类有关的所有要求。FIHC以簇为中心，经典的划分与层次方法以文档为中心。FIHC第一步是发现隐藏的主题，再在第一步的基础上进行文档聚类，可以改善聚类质量。
对FIHC的实验评估：FIHC在文档向量中使用全局频繁项，降低了文档集的维度。实验表明降维能使算法执行效率提高，可扩展性增强。FIHC在聚类100K个文档只要花几分钟，而HFTC和UPGMA方法没有提高这种聚类方案。同时FIHC方法的准确性也超过了其它方法。FIHC方法允许用户输入一个可选参数，即簇的数目。即使不指定，也可以获得接近最优的精确度。另外，每个簇附有标签，方便浏览。
CFWS和CFWMS (07)：实验表明CFWS算法比BKM，BBK，FIHC(使用频繁项集)的聚类准确性更高。由于CFWMS能识别不同词形表达的相同词意的词意序列，因此CFWMS在大多数情况下比CFWS有更好的F值。

3. 资源下载

中英文停用词表
FIHC源码
文本训练语料和测试语料(注：该语料由谭松波博士整理，中文原始文本，共10类)
原始中文文本数据集(未处理，未分类，共60篇)

weixin_33962923

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。