腾讯抗黑灰产——自监督发现行话黑词识别一词多义

最新推荐文章于 2022-02-18 11:43:52 发布

腾讯技术工程

最新推荐文章于 2022-02-18 11:43:52 发布

阅读量1.5k

点赞数 6

本文链接：https://blog.csdn.net/Tencent_TEG/article/details/103169022

版权

本文探讨了腾讯如何利用自监督学习技术来应对黑灰产，特别是针对行话和一词多义的问题进行黑词识别。通过这种方法，腾讯能够更准确地检测并阻止相关非法活动。

摘要由CSDN通过智能技术生成

本文作者：lorenzwang ，腾讯 TEG 安全工程师

常见的中文 NLP 下游任务一般都是以分词作为起点（以 transformer 为核心的算法除外），对每个词取 embedding，作为模型的输入。不过在黑灰产领域，这种处理方法有一个问题：大量的黑话/黑词对于下游任务非常有效，但却不在通用的词典中，导致分词器无法准确切分出对应的词。比如，今年 315 晚会曝光的“714 ”，再比如“口子”。以及本人参加新人培训时讲师提的一些 00 后常用词，“扩列”， “暖说说”。

笔者所在的防水墙团队整合了多源异质数据，在黑产人群识别、威胁渗透、黑产对抗等场景具备行业领先的能力。作为黑灰产能力建立的基础，行话/黑词的识别显得至关重要。本文将介绍一些我们在新词发现及一词多义上的解决方案。

1 新词发现

新词发现方法较多，本文将介绍一种比较简单且有效的新词发现方案：自由度+凝固度。

我们首先来定义一个问题：

怎样的字符可以组成一个中文语义下的“词”

1.1 具有比较丰富的上文、下文

词作为中文一个基本的语义单元，具备一个比较显著的特征：可以比较灵活的应用到不同场景中。比如说“机器学习”这个词，上下文均可以搭配很多动词和名词，“学习人工智能知识”， “从事人工智能行业”， “选修人工智能课程”，“基于人工智能 xx”，“人工智能赋予了 xx”， “人工智能识别了 xx”，“人工智能实现了 xx”。但是对于“人工智”这个词来说，上文依然可以搭配很多词语，可是下文基本上只能搭配“能”了。

再比如笔者的家乡：临沂。“住在临沂”，“建设大美临沂”， “临沂煎饼”， “临沂机场”都存在丰富的上文、下文，但是对于“沂”（友情提示：yi, 二声），下文可以接“煎饼”， “机场”， “人”，但是上文则大概率只有“临”，以及其他几个很少的字。

写到这里，各位读者可以自己自己考虑下一些常用词是否符合这一点。

上文和下文的丰富程度可以用 信息熵来度量：

熵是一种表示信息量的指标，熵越高意味着不确定越高，越难以预测

让我们用一个实际的例子来感受下。假设我们有一个硬币，每次抛起来之后正面向上的概率为 x, x

range(0, 1, 0.1)：

x取值与熵的关系

从图中可以看出，当正面向上的概率 x=0 或 x=1 时，熵=0，因此此时随便抛一次硬币我们都可以准确的预测到正面是否朝上。熵的最大值发生在 x=0.5 处，x=0.5 时我们预测准下一次抛硬币时正面向上的概率最小。

对应到词的上文和下文，对于那些上文（下文）不丰富的词来说，我们可以比较大概率的预测准词的上文或下文，比如“珠穆朗”这个词，它的下文大概率是“玛”，比如“沂”这个词，它的上文大概率是“临”，对于“珠穆朗”，我们称它的右信息熵比较小（信息熵越小，则确定性越高），对于“沂”这个词，我们称它的左信息熵比较小（信息熵越小，确定性越高）。

词的上文和下文越丰富，则其左信息熵（右信息熵）越大。一般来说，我们取左右信息熵中的最小值（考虑下这是为什么）。