呵呵，你开心就好！——AI向杠精宣战

最新推荐文章于 2024-02-03 02:18:33 发布

AI科技大本营

最新推荐文章于 2024-02-03 02:18:33 发布

阅读量2.8k

点赞数 1

本文链接：https://blog.csdn.net/dQCFKyQDXYm3F8rB0/article/details/80892167

版权

640?wx_fmt=jpeg

流言止于智者，聊天止于呵呵。

在 2013 年之前，“呵呵”还只是呵呵，然而风云突变，这个一直被用作表达礼貌、微笑的词汇，却在 2013 年被网友评选为年度最伤人聊天词汇。如果以前的“呵呵”是尴尬而不失礼貌的微笑，现在则是充满嘲讽和攻击性的一个词。

时间来到 2018 年，互联网上最让讨厌的已经不再只有喷子，各种阴阳怪气的言论，比如“呵呵”，比如“你开心就好”，简直让人浑身难受，这种喜欢抬杠的人我们称之为“杠精”。

互联网在进化，互联网的语言也在进化，互联网的监管技术也在进化。在这场很难设定边界的对抗中，知乎已经率先向杠精开战。

▌什么是阴阳怪气？

想要对抗阴阳怪气，首先就要给它下一个准确的定义，然而这十分困难。

YC 联合创始人保罗·格雷厄姆将人跟人之间的意见不统一、反对、冲突分成了七个层级，叫 Disagreement Hierarchy（以下简称 DH 值），如下图所示：

640?wx_fmt=png

阴阳怪气可用“杠精”这个词来指代，通常以“不针对发言内容，而是批评对方的语气”以及“提出反对意见，但不给或给出极少数论据支持”这两类常见言论为代表，此类评论极大了伤害创作者和交流者的体验，但难以解决。

——以上是知乎给出的定义。

当然，也有一些具体的例子，比如：呵呵，你厉害，你咋不上天呢，自以为是的人等等。而根据知乎 6 月的最新统计数据，被知友们踩过次数最多的 Top 10 评论有下面几种：

那你可真是够棒的！

你还是省省吧！

你开心就好。

相信大部分读者都对这些言论都非常熟悉，而且记忆犹深，毕竟被抬杠并不是一种好的体验。知乎给出的解决方案是：「阴阳怪气」等严重影响大家讨论体验的评论，作者可以「一键折叠」，其他知友也可以点「踩」，当被踩评论的分值达到一定阈值后，评论会被自动折叠。

除了依靠用户的自发行为之外，知乎也在尝试利用算法来识别阴阳怪气的言论。

▌如何对抗阴阳怪气？

作为知乎的“当家机器人”，瓦力算法除了作用于社区内的不友善、答非所问以及低质提问等内容外，最近也正在优化识别阴阳怪气类内容的模型。

根据知乎内容质量团队技术负责人刘兆来的说法，“瓦力已经产品化很久了，过去通过关键词和不友善文本识别模型，可以处理辱骂类的文本；目前，我们希望通过对阴阳怪气类的杠精性质评论进行处理，提升用户体验。”

刘兆来详细介绍了“瓦力”最新的阴阳怪气技术方案：首先通过知乎社区里的举报、反对等负向用户行为收集训练数据。然后通过各种同义词替换、规则模版方式对训练数据进行扩展，以缓解训练数据不足的问题。同时，“瓦力”提取文本、句法、表情符等特征，并利用一个带 attention 的 CNN 和 LSTM 的融合模型进行分类，最终判断出内容是否为阴阳怪气。

640?wx_fmt=png

具体来说，可以分为以下几个步骤：

首先，进行数据增强，以提升模型的泛化能力；

数据增强是为了提升模型在大量数据上的泛化能力。在这方面，知乎进行了两种尝试：提取阴阳怪气关键词做替换，比如同音异字变换，洗地党→洗涤党，真的很恶心 → 震得很恶心；此外，知乎也利用提取出的阴阳怪气关键样本，随机构造评论上文与评论。

其次，提取相关数据特征，利用卷积网络以及人工特征等来获得更多更详细的特征；

特征构建层方面，知乎从文本特征、数值特征、阴阳怪气词以及表情词着手。文本特征即文本加入阴阳怪气关键词进行分词后，保留标点，表情等；数值特征即句子长度，句号数量，感叹号数据等；阴阳怪气词即提取社区内被踩过很多次的表示阴阳怪气关键词；表情特征：划分正负样本表情。

最后，将提取出的特征输入分类器。

特征学习层方面，主要考虑了评论和上文的文本特征，包括字，词，标点，表情符号等，并利用知乎全量数据训练 word2vec 模型。知乎将评论上文与评论经过 embedding 层后分成两个金字塔型 CNN 网络，目的是训练各自独立的参数，知乎采取 CNN 网络是因为 CNN 卷积可以捕获字词的位置关系也可以比较有效的提取特征。

除上述文本特征外，知乎也充分考虑了其它特征，比如评论长度，评论中句号，问号等标点的个数，评论中是否包含阴阳怪气关键词等；这些特征离散化后，与评论的卷积提取特征进行拼接，最后与评论上文的卷积输出进行 dot-attention 目的是获取评论上文与评论不同的权重。最后，知乎将特征数据全连接层以 softmax 方式进行了分类。

至于这个模型对阴阳怪气的效果如何，知乎运营总监孙达云表示，其准确率比大部分人工判断还要准。

640?wx_fmt=png

▌难点在哪里？

然而，机器并不是总能解决所有问题，很多时候人工智能会表现的像人工智障。这一点，知乎自己也承认，特别是在理解人类语言这一领域。

640?wx_fmt=jpeg

上图是刘兆来列举的一些算法漏识别和误识别的情况：

通过分析这些 bad case，现代模型主要受限于训练数据。一方面是训练数据的覆盖范围不够广，所以一些不是很常见的词语，模型就会识别不出来。比如算法漏识别里的第二条，这些词在训练里面比较少，甚至在模型里面没有这些词，所以模型会识别错误。

第二个类型的错误，模型过渡弥合了一些数据，比如前面两条比较明显。第一条就是因为我们加入了一些标点符号数据特征，可能在训练数据里面有连续两个问号这种属于阴阳怪气的概率比较高。第二个，“哈哈哈”可能在阴阳怪气的样本里面比较多，所以模型会把这两个特征作为是不是阴阳怪气比较重要的根据，就会导致误判。

反讽本身是情感分析领域的一个传统难题，在孙达云看来，“解决阴阳怪气类评论的难点核心主要在于网络语言的复杂性，情感分析不同于普通文本分析，例如经典的‘呵呵’，由于双方不同关系、说话的不同场景和时间都会带来迥然不同的表意。即便是人工判定都存在标准化难度，算法模型的训练挑战就更为艰辛。”

总的来说，这项艰巨的任务的难点主要在于以下几点：