基于密度聚类的新闻热点发现实现步骤

最新推荐文章于 2024-08-09 16:04:52 发布

仙人掌_lz

最新推荐文章于 2024-08-09 16:04:52 发布

阅读量3.2k

点赞数

分类专栏： python 文章标签：自然语言处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_36603091/article/details/105263203

版权

本文介绍了如何利用自适应参数调整的DBSCAN和BERT进行新闻热点发现。首先，从ES获取新闻数据，通过BERT生成新闻特征向量。接着，运用DBSCAN进行聚类，再用TF-IDF+PageRank生成热点标题和摘要。同时，使用百度AIP接口对新闻进行分类，最后输出热点新闻。

摘要由CSDN通过智能技术生成

由于网络新闻的复杂性、冗余性、更新和传播的快速性等,都给人们快速、准确地获取自己所需的关键信息带来了困难,也不利于网络舆情的监控，因此网络新闻热点发现已成舆情监控的重点。

基于自适应参数调整的密度聚类算法的新闻热点发现实现步骤如下：

从es获取目标数据（新闻标题、摘要等信息）：根据过滤条件获取目标数据；
利用bert将新闻标题和新闻摘要生成新闻特征向量：

利用bert-serving-server搭建一个Bert的词向量服务，然后调用相应client即可获取特征向量

利用自适应参数调整的DBSCAN对新闻特征向量进行聚类，生成新闻簇；
对每个新闻簇利用TF-IDF+PageRank生成新闻热点标题、摘要；

将每条新闻的新闻标题/摘要视为一个句子，通过分词，去除停用词，获取TF-IDF向量，然后通过PageRank打分，取得分最高的标题/摘要用于该簇的标题/摘要。

利用第三方借口根据新闻标题和新闻内容对新闻类型分类；

这里使用的百度aip接口，输入标题和内容，

最低0.47元/天解锁文章

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。