文本聚类与搜索:基于质心词的创新方法
1. 聚类实验评估
在对文本进行聚类分析时,我们进行了三个主要实验,分别使用不同的算法对数据集 2.1 进行处理,以评估聚类效果。
1.1 实验 1:使用对跖文档聚类
- 聚类过程 :算法 I 对数据集 2.1 进行两轮迭代聚类。首先在初始簇(根)上进行操作,然后在生成的两个子簇上再次应用。这样便得到了一个聚类层次结构(聚类二叉树)。
- 聚类参数 :每个簇包含以下参数值(若已计算,否则为 N/A):
- 簇中文档/文章的数量
- 簇中术语的数量
- 簇半径(依赖于父簇的共现图 G)
- 文档集中主题的比例
- 簇中第一个文档(对跖文档)的质心术语
- 聚类结果 :
- 第一次迭代后,两个簇呈现出主导主题。例如,第一个簇(从左到右)包含 28 篇与汽车相关的文章,第二个簇包含 51 篇关于“金钱”和“体育”主题的文章。
- 第二次迭代中,第二个簇再次分裂,形成一个以“体育”为主导主题的簇(17 篇文章)和一个以“金钱”为主导主题的簇(22 篇文档)。
- 计算得到的四个簇的累积熵为 0.61,累积纯度为 0.70,表明算法 I 在少数聚类迭代后能够返回有用的簇。
超级会员免费看
订阅专栏 解锁全文
14

被折叠的 条评论
为什么被折叠?



