由于网络新闻的复杂性、冗余性、更新和传播的快速性等,都给人们快速、准确地获取自己所需的关键信息带来了困难,也不利于网络舆情的监控,因此网络新闻热点发现已成舆情监控的重点。
基于自适应参数调整的密度聚类算法的新闻热点发现实现步骤如下:
- 从es获取目标数据(新闻标题、摘要等信息):根据过滤条件获取目标数据;
- 利用bert将新闻标题和新闻摘要生成新闻特征向量:
利用bert-serving-server搭建一个Bert的词向量服务,然后调用相应client即可获取特征向量
- 利用自适应参数调整的DBSCAN对新闻特征向量进行聚类,生成新闻簇;
- 对每个新闻簇利用TF-IDF+PageRank生成新闻热点标题、摘要;
将每条新闻的新闻标题/摘要视为一个句子,通过分词,去除停用词,获取TF-IDF向量,然后通过PageRank打分,取得分最高的标题/摘要用于该簇的标题/摘要。
- 利用第三方借口根据新闻标题和新闻内容对新闻类型分类;
这里使用的百度aip接口,输入标题和内容,