微博舆情之热点话题分析

最新推荐文章于 2024-01-16 21:34:30 发布

VIP文章 Claire_Bear7

最新推荐文章于 2024-01-16 21:34:30 发布

阅读量1.2w

点赞数 4

分类专栏：项目总结

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/claire7/article/details/46637723

版权

主要流程

在热点话题发现中，主要的流程如下：

在微博流中加入一个时间窗，从时间窗开始处累计微博，直到时间窗的结尾，然后对这个时间窗内的微博进行特征抽取，得到能表示微博的词语，并转化为特征空间中的特征向量；然后利用凝聚式层次聚类算法对文档集合聚类，得到候选话题簇，然后利用 SinglePass 算法判断每个候选话题和历史话题的相似度，如果最大相似度小于阈值，则认为候选话题是一个新话题并把这个候选话题转换成新话题，然后把该话题加入到历史话题中以便后续跟踪；否则选取和候选话题相似度最高的前 K个历史话题，并把和这些历史话题相关的微博放到一个文档集合中，然后对该候选话题中的每一篇文档，利用 KNN 算法，得到每篇文档应该归入的历史话题ID，并把这些话题 ID 放入到话题集合中，然后统计每个历史话题 ID 所占的比率，并把该候选话题归入到所占比例最高的话题 ID 所对应的话题中，然后循环处理其他候选话题。

相关算法

层次聚类

层次聚类（Hierarchical Clustering）又叫树聚类算法，它通过某种文档相关性度量方法，将所有文档以树形结构的形式组织起来。树中叶子节点代表微博文档，非叶子节点为一个类簇，该类簇包含其下面的所有叶子节点所代表的微博文档。根据层次所形成的方式，层次聚类可以分为自底向上方法的凝聚法和自顶向下的分裂法。凝聚算法在进行聚类时，把每一篇微博文档初始化为一系列的单独类簇，然后对这些单独类簇进行两两合

最低0.47元/天解锁文章

关注

4
点赞
踩
77

收藏

觉得还不错? 一键收藏
2
评论
微博舆情之热点话题分析

主要流程在热点话题发现中，主要的流程如下：在微博流中加入一个时间窗，从时间窗开始处累计微博，直到时间窗的结尾，然后对这个时间窗内的微博进行特征抽取，得到能表示微博的词语，并转化为特征空间中的特征向量；然后利用凝聚式层次聚类算法对文档集合聚类，得到候选话题簇，然后利用 SinglePass 算法判断每个候选话题和历史话题的相似度，如果最大相似度小于阈值，则认为候选话题是一个新话题并把这个候选话题转
复制链接

扫一扫

专栏目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。