业务定义
首先在我们讨论标题党的时候,我们需要定义清楚,我们说的是:(1)仅标题带来的主观感受,还是(2)通过标题点击进入文章后的阅读感受。
如果是(1)标题的感受,来源于几个 indicate:
- 表征的有:用词用语,句法句样式(可以看文末 );
- 知识层面的有:标题是否让人主观先验到,大概率是虚假新闻。
如果是(2)通过标题后阅读文章的感受,有几个 indicate:
- 表征的有:文章直观感受没有信息量如,纯配图,或者纯旧闻,提现在跳出率高,阅读时常低;
- 知识层面的有:文章是否无营养,文章内容纯在虚假。
1.1 使用了诱导性:句法句式 1.2 使用了诱导性:用词用语 1.3 语义本身具有诱导性
通用子问题:分类模型(SVM,BERT)、句法分析。

2型. 文不对题型标题党(基于文本和内容匹配情况)
通用子问题:NLP 问题中的相似度量办法都可以尝试。

3型. 无价值判定标题党(基于内容表现模型)
如:诱导点击,跳出率高。用户进入后大部分第一时间跳出。 通用子问题:数据挖掘问题,如空间异常检查。
4型. 评论判定标题党(基于用户文本知识模型)
基于用户评论分析通用子问题:NLP 情感分析,规则等。
5型. 行为判定标题党 (基于用户行为模型)
基于负反馈行为(举报原因)通用子问题:
1. 类似 III 型,常规数据挖掘问题; 2. 建模用户行为,其他集体智慧编程方法(CF,矩阵分解等)。
6型. 虚假型标题党
如:标题本身描述是虚假的。可能是主观虚假,也可能是客观虚假。和正文是否虚假无关。
通用子问题: 可以参考当前已有的假新闻检测方法
严格来说可能不一定是一个标题党问题,只是具有标题党的内容,本身也伴随着这些内容问题,比如水文,无营养判定等内容质量问题等。

备注: 以上五个类型,不具备排他性。可以同时符合多个。9 型标题党,可以通过多模态的分类问题直接建模,类似无营养、水文、假新闻等。
举例
断章取义(I, II,IV)
标题:刘德华演唱会现场耍大牌!怒骂保安场面失控!
内容:安保动作过大,刘德华保护歌迷安全
标题:插了一夜没拔,结果差点弄出人命!
内容:手机充电器夜里爆炸
标题:禽兽!一众男明星艺人竟然对柳岩做这样的事情!
内容:包贝尔婚礼,柳岩险被群人推到泳池
标题:九寨沟,不震你震谁?
内容:九寨沟景区收入过高被仇富