内容算法：新闻“标题党”检测方法综述

最新推荐文章于 2024-06-02 23:32:25 发布

PaperWeekly

最新推荐文章于 2024-06-02 23:32:25 发布

阅读量3.8k

点赞数

本文链接：https://blog.csdn.net/c9Yv2cf9I06K2A9E/article/details/98686870

版权

本文概述了检测新闻标题党的方法，包括业务定义、特征分析和相关算法。利用TF-IDF、深度学习模型（LSTM、Embedding）、传统机器学习（如LR、RF）和信息抽取技术，结合标题与正文的相似度、情感分析、网络用语和实体匹配等特征，建立检测系统。此外，文章提到Facebook和今日头条等平台的解决方案，强调人工与算法结合的重要性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

640

业务定义

首先在我们讨论标题党的时候，我们需要定义清楚，我们说的是：（1）仅标题带来的主观感受，还是（2）通过标题点击进入文章后的阅读感受。

如果是（1）标题的感受，来源于几个 indicate：

表征的有：用词用语，句法句样式（可以看文末标题党特征举例）；
知识层面的有：标题是否让人主观先验到，大概率是虚假新闻。

如果是（2）通过标题后阅读文章的感受，有几个 indicate：

表征的有：文章直观感受没有信息量如，纯配图，或者纯旧闻，提现在跳出率高，阅读时常低；
知识层面的有：文章是否无营养，文章内容纯在虚假。

我们根据上面的区分，根据使用特征和处理手段，把标题党分成几种问题 domain，希望在解决标题党泛问题之前，先明确定义。

1型. 标题型标题党（基于标题本身）
1.1 使用了诱导性：句法句式 1.2 使用了诱导性：用词用语 1.3 语义本身具有诱导性
通用子问题：分类模型（SVM，BERT）、句法分析。
640?wx_fmt=png

2型. 文不对题型标题党（基于文本和内容匹配情况）
通用子问题：NLP 问题中的相似度量办法都可以尝试。
640?wx_fmt=png

3型. 无价值判定标题党（基于内容表现模型）
如：诱导点击，跳出率高。用户进入后大部分第一时间跳出。通用子问题：数据挖掘问题，如空间异常检查。
4型. 评论判定标题党（基于用户文本知识模型）
基于用户评论分析通用子问题：NLP 情感分析，规则等。
5型. 行为判定标题党（基于用户行为模型）
基于负反馈行为（举报原因）通用子问题：
1. 类似 III 型，常规数据挖掘问题； 2. 建模用户行为，其他集体智慧编程方法（CF，矩阵分解等）。
6型. 虚假型标题党
如：标题本身描述是虚假的。可能是主观虚假，也可能是客观虚假。和正文是否虚假无关。
通用子问题：可以参考当前已有的假新闻检测方法

9型. 整体标题党
严格来说可能不一定是一个标题党问题，只是具有标题党的内容，本身也伴随着这些内容问题，比如水文，无营养判定等内容质量问题等。
640?wx_fmt=png