网络舆情热点发现及分析（single-pass聚类）

最新推荐文章于 2024-02-05 08:30:00 发布

咕噜oo

最新推荐文章于 2024-02-05 08:30:00 发布

阅读量6.9k

点赞数 7

分类专栏：算法文章标签：聚类算法舆情热点发现

本文链接：https://blog.csdn.net/qq_44081582/article/details/112691844

版权

本文介绍了网络舆情热点的发现模型，包括基于网络新词识别的预处理，使用Single-Pass增量聚类算法进行热点话题发现，以及通过文本倾向性分析进行热点话题的深入理解。Single-Pass算法考虑了输入顺序敏感性和效率问题，并针对类簇剧增进行了优化。文本倾向性分析依赖情感词典和社交媒体互动数据来评估舆情倾向。

摘要由CSDN通过智能技术生成

热点话题的发现模型

在整个的过程中，介绍三个点：

预处理：基于网络新词的识别算法
热点话题发现：增量聚类算法Single-Pass
热点话题分析：文本倾向性分析

基于网络新词的识别算法

算法思路：

首先根据微博文本的特点，将#和中括号之间的文本进行了提取，因为在微博中，这样的文本本身就表示一个话题，所以可以直接被提取。而对于微博的正文部分，或者本身没有#和中括号这样的文本内容，则会进行初步分词，然后利用中文分词系统对初步分词进行筛选，删掉旧词，得到网络新词。这时候就得到了两组新词，算法会对这两组新词进行比较，删除不同的词，剩下的作为候选词，根据原始语料计算该词的频率，并根据频率进行筛选，留下频率较高的词作为最终得到的新词输出。

single-pass算法

算法思路：

按照文档到来的顺序一次一篇进行处理的，首先分析接收到的新文档，计算该文档与已有话题类簇中心的相似度，并根据预先设定的阈值（Tc是事先设定好的阈值）来决定当前文档与比对的话题类簇的关系。如果相似度在阈值范围之内，那么该文档归属到当前话题类簇中，如果不在范围之内，则将该文档作为一个新的话题加入到类簇队列中，并结束对当前文档判断，等待下一个文档的到来。

这样就实现了话题的动态增量聚类。算法刚开始时，首先将第一篇文档作为第一个类簇，并确定阈值，当有新的文档加入后，计算文档与已有类簇的相似度，以此循环下去，直到结束。

传统的single-pass算法的缺点及改进：

第一，对文档输入顺序很敏感：而由于新闻数据流本身就有时间特性，我们就可以将新闻话题以发表的时间作为输入顺序，对新采集的文档按照更新时间进行排序，较早时间的优先进行聚类，较新时间的随后进行聚类。

第二，随着文档不断增多而带来的逐一比较文档效率低的问题：增加一个“类簇特征中心”，在聚类过程中，形成该类簇的一个中心，该特征中心代表了当前类簇中所有文档的核心内容的一个概括，当采集到新文档进行对比计算时，只需要与该特征中心比较即可找到二者之间的相似度，进而可以知道该文档是否属于当前类簇。这种改进，可以有效降低文档比较次数，从而提高了算法的求解效率。

第三：时间增加带来的类簇剧增的问题，网上很多人在说“互联网是没有记忆的”，这个观点的产生，就是由于网络热点的时效性，再火的话题，他的热度也会随着时间而消退，旧的话题就是会多数人被淡忘，如果这样的类簇都永久保留，不仅影响新热点的发现与分析的效果，也会付出更多的计算存储开销，所以我们就可以根据热度存在的周期分析对话题类簇进行有效的舍取。