对微博评论（#房价会不会报复性上涨）进行主题聚类分析 LDA STM

本文链接：https://blog.csdn.net/2301_78696436/article/details/139318841

1、描述性统计

爬取数据（AJAX）并进行清洗（jieba）后，可视化如下
在这里插入图片描述

在这里插入图片描述

2、主题聚类

2.1 VOSviewer显示聚类效果

2.1.1 准备工作：利用百度翻译API对文本进行翻译

2.1.2 连线及圆半径的意义

1. 连线的意义
表示关系强度：在数据挖掘中，VOSVIEWER的连线通常用于表示不同数据项之间的关系。连线的粗细或颜色深浅可以直接反映这种关系的强度。
2. 圆半径的意义
表示数据点的重要性：在VOSVIEWER中，圆半径的大小通常用于表示数据点的重要性或权重。这种重要性或权重可能是基于数据的某种属性或特征计算得出的
在这里插入图片描述

建模分析

在这里插入图片描述

2.2 准备工作—— 文本特征提取——TF-IDF（Term Frequency-Inverse Document Frequency）

这是一种常用的文本特征提取方法，用于衡量单词在文档集中的重要性。其主要思想是：

TF（词频，Term Frequency）：衡量单词在一个文档中出现的频率。
IDF（逆文档频率，Inverse Document Frequency）：衡量单词在整个文档集中出现的频率。IDF的公式为： $\text{IDF}(t) = \log \left(\frac{N}{n_t}\right)$ 其中，( N ) 是文档集中文档的总数，( n_t ) 是包含词语 ( t ) 的文档数。

TF-IDF的公式为： $\text{TF-IDF}(t,d) = \text{TF}(t,d) \times \text{IDF}(t)$ 其中，( t ) 是单词，( d ) 是文档。

TF-IDF特征向量矩阵：通过TF-IDF向量化器，将文本转化为数值向量表示，其中每个向量的每个元素对应于某个单词在该文档中的TF-IDF值。

2.3 K-Means聚类

在这里插入图片描述

2.3.1 轮廓系数图、词云图

下面这张图片展示了K-means聚类算法的轮廓系数（Silhouette Score）随簇数（K）的变化情况。轮廓系数是一种评估聚类效果的指标，值越高，说明聚类效果越好。
在这里插入图片描述
从这张图中，我们可以得到以下信息和结论：

轮廓系数（Silhouette Score）：
- 轮廓系数是一种评估聚类效果的指标，其值在 -1 到 1 之间。值越高，表示聚类效果越好。一般来说，0.5 以上的值表示聚类效果较好，0.25 到 0.5 表示聚类效果中等，低于 0.25 表示聚类效果较差。
- 从图中可以看到，轮廓系数的值在 0.098 到 0.102 之间，表明聚类效果一般或较差。
最佳聚类数量（K）：
- 轮廓系数在 K 值为 10 时达到最大值（约 0.102），表明在这一点上聚类效果最好。因此，K = 10 可能是最佳的聚类数量。
- 但是，即使在最佳 K 值时，轮廓系数也并不高，这表明数据可能并不适合使用 K-means 进行聚类，或者需要进一步的特征工程和数据处理。
K 值选择的影响：
- 当 K 值从 2 增加到 6 时，轮廓系数逐渐下降，表明聚类效果变差。
- 从 K = 7 开始，轮廓系数迅速上升，特别是在 K = 8 到 K = 10 之间，聚类效果显著改善。

在这里插入图片描述

2.3.2 t-SNE降维后的聚类结果

在这里插入图片描述
大多数数据点都集中在一个簇（Cluster 0），而其他簇的数据点较少且分散。这可能表明 K-means 聚类在这种情况下效果不佳。

可能的原因和改进方法：

数据本身的性质：您的数据可能不适合使用 K-means 聚类。K-means 假设簇是球形的，并且簇之间的方差相似。如果您的数据不满足这些假设，K-means 的效果可能会很差。
特征工程：可以尝试不同的文本预处理方法，例如去除低频词、使用不同的向量化方法（如 Word2Vec 或 BERT）等，以提高特征表示的质量。
聚类算法：尝试其他聚类算法，例如 DBSCAN、层次聚类（Hierarchical Clustering）或 Gaussian Mixture Models (GMM)，这些算法在处理不同形状和密度的簇时可能会表现更好
降维方法：除了 t-SNE，还可以尝试其他降维方法，如 UMAP，以更好地可视化高维数据。