内容算法:新闻“标题党”检测方法综述

本文概述了检测新闻标题党的方法,包括业务定义、特征分析和相关算法。利用TF-IDF、深度学习模型(LSTM、Embedding)、传统机器学习(如LR、RF)和信息抽取技术,结合标题与正文的相似度、情感分析、网络用语和实体匹配等特征,建立检测系统。此外,文章提到Facebook和今日头条等平台的解决方案,强调人工与算法结合的重要性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

640


业务定义


首先在我们讨论标题党的时候,我们需要定义清楚,我们说的是:(1)仅标题带来的主观感受,还是(2)通过标题点击进入文章后的阅读感受


如果是(1)标题的感受,来源于几个 indicate:


  • 表征的有:用词用语,句法句样式(可以看文末标题党特征举例);
  • 知识层面的有:标题是否让人主观先验到,大概率是虚假新闻。

如果是(2)通过标题后阅读文章的感受,有几个 indicate:
  • 表征的有:文章直观感受没有信息量如,纯配图,或者纯旧闻,提现在跳出率高,阅读时常低;
  • 知识层面的有:文章是否无营养,文章内容纯在虚假。


我们根据上面的区分,根据使用特征和处理手段,把标题党分成几种问题 domain,希望在解决标题党泛问题之前,先明确定义。


1型. 标题型标题党(基于标题本身)
1.1 使用了诱导性:句法句式 1.2 使用了诱导性:用词用语 1.3 语义本身具有诱导性
通用子问题:分类模型(SVM,BERT)、句法分析。
640?wx_fmt=png
2型. 文不对题型标题党(基于文本和内容匹配情况)
通用子问题:NLP 问题中的相似度量办法都可以尝试。
640?wx_fmt=png
3型. 无价值判定标题党(基于内容表现模型)
如:诱导点击,跳出率高。用户进入后大部分第一时间跳出。  通用子问题:数据挖掘问题,如空间异常检查。
4型. 评论判定标题党(基于用户文本知识模型)
基于用户评论分析通用子问题:NLP 情感分析,规则等。
5型. 行为判定标题党 (基于用户行为模型)
基于负反馈行为(举报原因)通用子问题:
1. 类似 III 型,常规数据挖掘问题; 2. 建模用户行为,其他集体智慧编程方法(CF,矩阵分解等)。
6型. 虚假型标题党
如:标题本身描述是虚假的。可能是主观虚假,也可能是客观虚假。和正文是否虚假无关。
通用子问题: 可以参考当前已有的假新闻检测方法


9型. 整体标题党
严格来说可能不一定是一个标题党问题,只是具有标题党的内容,本身也伴随着这些内容问题,比如水文,无营养判定等内容质量问题等。
640?wx_fmt=png
备注: 以上五个类型,不具备排他性。可以同时符合多个。9 型标题党,可以通过多模态的分类问题直接建模,类似无营养、水文、假新闻等。

举例


断章取义(I, II,IV)

  • 标题:刘德华演唱会现场耍大牌!怒骂保安场面失控!

  • 内容:安保动作过大,刘德华保护歌迷安全


故作玄虚(I)
  • 标题:插了一夜没拔,结果差点弄出人命!

  • 内容:手机充电器夜里爆炸


正题歪做(IV)
  • 标题:禽兽!一众男明星艺人竟然对柳岩做这样的事情

  • 内容:包贝尔婚礼,柳岩险被群人推到泳池


侮辱调侃(I,IV)
  • 标题:九寨沟,不震你震谁?

  • 内容:九寨沟景区收入过高被仇富


评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值