# 研究杂感 × Gephi（第一辑）

人生苦短我愛Python

已于 2022-03-26 20:50:04 修改

阅读量2.3k

点赞数 2

分类专栏： Faya美数课文章标签： python 数据分析开发语言

于 2022-03-26 20:45:54 首次发布

本文链接：https://blog.csdn.net/rc15680632552/article/details/123717833

版权

Faya美数课专栏收录该内容

13 篇文章

订阅专栏

本文介绍使用Gephi进行语义网络分析的方法，对比LDA主题模型，阐述如何构建词语关系网并进行主题聚类分析。通过具体步骤说明如何处理中文文本数据，包括导入数据、调整节点大小和线条样式等。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

写在前面

之前用过ROST CM6 来进行毕设中有关景区整体的感知，但是ROST CM6似乎已经是2010年的产品了，用在2022年毕设有点稍旧（~~当然Gephi似乎是2009年的产品~~ ）不管怎么说，Gephi不管是从名字上还是内容上似乎好像也许可能比 ROST CM6 高端辣么一点点，现在学习一下绘制过程和方法，将毕设部分进行调整和改进。

正餐开始

其实利用Gephi来进行相关分析和LDA差不多

LDA所做的内容主题是割裂的，无法得知各主题间的相关关系，丢失了词语和句子之间的联系，常常导致我们无法给主题进行准确的命名。

LDA还会遇到一个常见的问题是困惑度不减反增，出现这个问题的原因可能是：

由于短文本的特征稀疏性，传统的LDA获PLSA主题模型分析短文本的效果并不理想
[1] 蔡永明,长青.共词网络LDA模型的中文短文本主题分析[J].情报学报,2018,37(03):305-317

在这里插入图片描述
（毕设中用的都是长段的评论文本，所以没出现问题）

开始说一下语义网络分析

语义网络分析是指从文章中提取某些关键词，然后利用这些词语直接的相似度关系来构建词语的关系网。进而来探索文本想表达的意思，比方说我们可以用其来做主题聚类分析。
在这里插入图片描述
相较于割裂的 LDA 主题我们能通过关系图更清晰了解主题及内容之间的关系讯息。

动手实操

需要在 data 文件夹中放入相关数据

在进行完停用词去除、合并同义词、词语规定标准后（当然这需要先粗浅地RUN一次再来进行调整和修改），即可利用相关代码构建相关词语的共线矩阵，然后即可得到相关的文件，这时即可导入Gephi软件进行分析。

一点题外话+补充

定义自己的文件（CSV）

虽然这个可能不很常用（~~毕竟边的权重啥的很主观~~ ）但是还是提一下吧。

首先是导入边文件：
在这里插入图片描述
注意观察文字有无乱码，如果出现了乱码，记得用记事本打开另存为utf-8的形式

此时已完成边文件的导入，下一步要进行节点内容的导入（操作方法同上）
在这里插入图片描述

注意要把所有的图选项改为 无向图

在导入边的时候，由于我们是首创一个文件，所以选择的是 New Workspace 选项，现在我们导入节点是基于前一步导入的边，所以要选择 Append to existing workspace 选项
在这里插入图片描述
可以通过这个来设置节点的大小
（~~但是平常感觉用 Size 的机会很小，而且也不怎么好看~~ ）

备注：
继续深入了一下，发现这个其实还是很好用的

可以将重点部分进行突出，把 csv 数据导出后再进行 Size 列的调整修改，这样的话也还不错。再按照上述内容进行修改：
在这里插入图片描述

真正的正餐开始

现在是利用毕设中自己的数据集来做一遍，自己定义CSV并不常用，这才是比较常规的 Gephi 方法。

首先打开result文件夹下的网络图
在这里插入图片描述
由于内容是中文的，必须选用中文才能让其得以显现

如果遇到标签过于紧密，点选标签调整，标签即会自动移动
（下图非最终结果）

点选统计相关的按键（~~虽然不知道为啥要点~~ ）
最重要的感觉是模块化
模块化即是主题，然后点选颜色，不同的节点就被赋予不同的颜色
在这里插入图片描述

可以对线条和字体进行调整