文献聚类结果可视分析方法研究
1 论文概述
2020年10月发表在《计算机辅助设计与图形学学报》上的中科院网络中心的一篇文章,主要是探究文献聚类结果的可视分析,提出了一个完整的文献聚类结果可视分析框架。该框架包含数据预处理、文本表示、文本聚类、聚类结果可视分析各个环节, 采用语料结构可视化、语料内容可视化、文本向量维度可视化以及可视化交互对聚类结果进行解释、分析、评估、调整和优化.
1.1 摘要
问题:在信息化时代, 文献数据呈爆炸式增长. 面对海量无标签的文献数据, 无监督文本聚类能够快速、高效地对大规模数据重新组织和归纳. 然而, 影响文献聚类效果的因素是多方面的, 从数据处理到文本表示方法到聚类算法的选择, 在任意一个环节不同的选择产生的结果可能大相径庭; 且在各环节方法种类多样使得文献聚类结果难以解释和评估, 对做好文献聚类工作造成了很大困扰.
方法:为此, 提出了一个完整的文献聚类结果可视分析框架. 该框架包含数据预处理、文本表示、文本聚类、聚类结果可视分析各个环节, 采用语料结构可视化、语料内容可视化、文本向量维度可视化以及可视化交互对聚类结果进行解释、分析、评估、调整和优化.
基于该框架, 设计并实现了文献聚类结果可视分析系统, 研究了采用不同文本表示方法、不同聚类算法对聚类结果产生的影响.
评估: 最后, 通过 3 个案例, 验证了该框架有效性.
1.2 引言
需要解决的问题:
- 各个环节选择不同的方法所产生的结果可能大相径庭,如何为海量无标记的文献数据选择合适的聚类方法;
- 文献聚类结果也很难解释和评价:聚类结果评价依赖于人工标注这一难题、每一个类的内容以及是否可以进一步调整仍需查看文献内容。
解决方法
- 对聚类结果进行评价。展示语料结构和语料内容来解释聚类结果, 从而感知、对比不同文献聚类方法产生的聚类结果的差异。
- 对聚类结果进行分析、调整和诊断。设计了基于等高线的文档选择方法。
- 设计并实现了文献聚类结果可视分析系统。数据集验证、案例分析评估系统有效性。
1.3 脉络
- 相关工作
- 可视分析框架
- 可视化设计
- 系统实现及案例分析
- 结论
2 可视分析框架
2.1 框架概述
- 文献聚类通常包括文本数据预处理、文本表示和文本聚类等主要环节, 因此文献聚类结果可视分析框架也应当包含这些环节.
- 聚类结果可视化方法应当能够清晰地呈现各个类的大小、类之间的关系、类内结构和每个类的内容, 从而帮助用户洞察聚类结果的好坏.
- 对不符合预期的聚类结果进行调整, 快速逼近预期的效果,则能为用户提供很大帮助.
2.2 框架组成
文献聚类结果可视分析框架如图 1 所示, 主要分为数据预处理、文本表示、文本聚类和聚类结果可视化 4 个环节.
3 可视化设计
3.1 语料结构可视化
语料结构可视化如图 a 所示.