论文研读-文献聚类可视化-文献聚类结果可视分析方法研究

本文提出一个文献聚类结果可视分析框架,包含数据预处理、文本表示、文本聚类和可视化分析。通过语料结构和内容可视化,以及交互式调整,帮助用户理解和优化聚类结果。系统实现中,采用LDA和Doc2Vec等方法,通过案例分析验证了框架的有效性。
摘要由CSDN通过智能技术生成

1 论文概述

2020年10月发表在《计算机辅助设计与图形学学报》上的中科院网络中心的一篇文章,主要是探究文献聚类结果的可视分析,提出了一个完整的文献聚类结果可视分析框架。该框架包含数据预处理、文本表示、文本聚类、聚类结果可视分析各个环节, 采用语料结构可视化、语料内容可视化、文本向量维度可视化以及可视化交互对聚类结果进行解释、分析、评估、调整和优化.

1.1 摘要

问题:在信息化时代, 文献数据呈爆炸式增长. 面对海量无标签的文献数据, 无监督文本聚类能够快速、高效地对大规模数据重新组织和归纳. 然而, 影响文献聚类效果的因素是多方面的, 从数据处理到文本表示方法到聚类算法的选择, 在任意一个环节不同的选择产生的结果可能大相径庭; 且在各环节方法种类多样使得文献聚类结果难以解释和评估, 对做好文献聚类工作造成了很大困扰.

方法:为此, 提出了一个完整的文献聚类结果可视分析框架. 该框架包含数据预处理、文本表示、文本聚类、聚类结果可视分析各个环节, 采用语料结构可视化、语料内容可视化、文本向量维度可视化以及可视化交互对聚类结果进行解释、分析、评估、调整和优化.
基于该框架, 设计并实现了文献聚类结果可视分析系统, 研究了采用不同文本表示方法、不同聚类算法对聚类结果产生的影响.

评估: 最后, 通过 3 个案例, 验证了该框架有效性.

1.2 引言

需要解决的问题:

  • 各个环节选择不同的方法所产生的结果可能大相径庭,如何为海量无标记的文献数据选择合适的聚类方法;
  • 文献聚类结果也很难解释和评价:聚类结果评价依赖于人工标注这一难题、每一个类的内容以及是否可以进一步调整仍需查看文献内容。

解决方法

  • 对聚类结果进行评价。展示语料结构和语料内容来解释聚类结果, 从而感知、对比不同文献聚类方法产生的聚类结果的差异。
  • 对聚类结果进行分析、调整和诊断。设计了基于等高线的文档选择方法。
  • 设计并实现了文献聚类结果可视分析系统。数据集验证、案例分析评估系统有效性。

1.3 脉络

  • 相关工作
  • 可视分析框架
  • 可视化设计
  • 系统实现及案例分析
  • 结论

2 可视分析框架

2.1 框架概述

  • 文献聚类通常包括文本数据预处理、文本表示和文本聚类等主要环节, 因此文献聚类结果可视分析框架也应当包含这些环节.
  • 聚类结果可视化方法应当能够清晰地呈现各个类的大小、类之间的关系、类内结构和每个类的内容, 从而帮助用户洞察聚类结果的好坏.
  • 对不符合预期的聚类结果进行调整, 快速逼近预期的效果,则能为用户提供很大帮助.

2.2 框架组成

文献聚类结果可视分析框架如图 1 所示, 主要分为数据预处理、文本表示、文本聚类和聚类结果可视化 4 个环节.
在这里插入图片描述在这里插入图片描述

3 可视化设计

3.1 语料结构可视化

语料结构可视化如图 a 所示.

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值