基于密度聚类的新闻热点发现实现步骤

本文介绍了如何利用自适应参数调整的DBSCAN和BERT进行新闻热点发现。首先,从ES获取新闻数据,通过BERT生成新闻特征向量。接着,运用DBSCAN进行聚类,再用TF-IDF+PageRank生成热点标题和摘要。同时,使用百度AIP接口对新闻进行分类,最后输出热点新闻。
摘要由CSDN通过智能技术生成

 

由于网络新闻的复杂性、冗余性、更新和传播的快速性等,都给人们快速、准确地获取自己所需的关键信息带来了困难,也不利于网络舆情的监控,因此网络新闻热点发现已成舆情监控的重点。

  基于自适应参数调整的密度聚类算法的新闻热点发现实现步骤如下:

  1. 从es获取目标数据(新闻标题、摘要等信息):根据过滤条件获取目标数据;
  2. 利用bert将新闻标题和新闻摘要生成新闻特征向量

利用bert-serving-server搭建一个Bert的词向量服务,然后调用相应client即可获取特征向量

  1. 利用自适应参数调整的DBSCAN对新闻特征向量进行聚类,生成新闻簇
  2. 对每个新闻簇利用TF-IDF+PageRank生成新闻热点标题、摘要

将每条新闻的新闻标题/摘要视为一个句子,通过分词,去除停用词,获取TF-IDF向量,然后通过PageRank打分,取得分最高的标题/摘要用于该簇的标题/摘要。

  1. 利用第三方借口根据新闻标题和新闻内容对新闻类型分类

这里使用的百度aip接口,输入标题和内容,

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值