腾讯抗黑灰产——自监督发现行话黑词识别一词多义

本文探讨了腾讯如何利用自监督学习技术来应对黑灰产,特别是针对行话和一词多义的问题进行黑词识别。通过这种方法,腾讯能够更准确地检测并阻止相关非法活动。
摘要由CSDN通过智能技术生成

本文作者:lorenzwang ,腾讯 TEG 安全工程师

常见的中文 NLP 下游任务一般都是以分词作为起点(以 transformer 为核心的算法除外),对每个词取 embedding,作为模型的输入。不过在黑灰产领域,这种处理方法有一个问题:大量的黑话/黑词对于下游任务非常有效,但却不在通用的词典中,导致分词器无法准确切分出对应的词。比如,今年 315 晚会曝光的“714 ”,再比如“口子”。以及本人参加新人培训时讲师提的一些 00 后常用词,“扩列”, “暖说说”。

笔者所在的防水墙团队整合了多源异质数据,在黑产人群识别、威胁渗透、黑产对抗等场景具备行业领先的能力。作为黑灰产能力建立的基础,行话/黑词的识别显得至关重要。本文将介绍一些我们在新词发现及一词多义上的解决方案。

1 新词发现

新词发现方法较多,本文将介绍一种比较简单且有效的新词发现方案:自由度+凝固度。

我们首先来定义一个问题:

怎样的字符可以组成一个中文语义下的“词”
1.1 具有比较丰富的上文、下文

词作为中文一个基本的语义单元,具备一个比较显著的特征:可以比较灵活的应用到不同场景中。比如说“机器学习”这个词,上下文均可以搭配很多动词和名词,“学习人工智能知识”, “从事人工智能行业”, “选修人工智能课程”,“基于人工智能 xx”,“人工智能赋予了 xx”, “人工智能识别了 xx”,“人工智能实现了 xx”。但是对于“人工智”这个词来说,上文依然可以搭配很多词语,可是下文基本上只能搭配“能”了。

再比如笔者的家乡:临沂。“住在临沂”,“建设大美临沂”, “临沂煎饼”, “临沂机场”都存在丰富的上文、下文,但是对于“沂”(友情提示:yi, 二声),下文可以接“煎饼”, “机场”, “人”,但是上文则大概率只有“临”,以及其他几个很少的字。

写到这里,各位读者可以自己自己考虑下一些常用词是否符合这一点。

上文和下文的丰富程度可以用 信息熵来度量:

熵是一种表示信息量的指标,熵越高意味着不确定越高,越难以预测

让我们用一个实际的例子来感受下。假设我们有一个硬币,每次抛起来之后正面向上的概率为 x, x range(0, 1, 0.1):
x取值与熵的关系

从图中可以看出,当正面向上的概率 x=0 或 x=1 时,熵=0,因此此时随便抛一次硬币我们都可以准确的预测到正面是否朝上。熵的最大值发生在 x=0.5 处,x=0.5 时我们预测准下一次抛硬币时正面向上的概率最小。

对应到词的上文和下文,对于那些上文(下文)不丰富的词来说,我们可以比较大概率的预测准词的上文或下文,比如“珠穆朗”这个词,它的下文大概率是“玛”, 比如“沂”这个词,它的上文大概率是“临”,对于“珠穆朗”,我们称它的右信息熵比较小(信息熵越小,则确定性越高),对于“沂”这个词,我们称它的左信息熵比较小(信息熵越小,确定性越高)。

词的上文和下文越丰富,则其左信息熵(右信息熵)越大。一般来说,我们取左右信息熵中的最小值(考虑下这是为什么)。

1.2 词的内部凝聚度要足够高

上面提到说对于一个合格的词语而言,需要具有丰富的上下文(不然就没必要作为一个基本的不可划分的语义单元了),但满足了这一点就可以了嘛?让我们来看一个例子。

小明在学校看了小红的演唱会

其中,“在学校”几乎百搭,“的演唱会”也是,不信来看:

xx/在学校/xx:他在学校经常捣乱、美术展在学校美术馆举办

xx/的演唱会/xx:周杰伦的演唱会棒极了、成功的演唱会太难了

但是“在学校”和“的演唱会”很明显不是我们直觉上的词,为什么会出现这种情况?因为“在”和“的”在中文中出现的太频繁了(“的太频繁”是不是也符合拥有丰富的上文、下文这一点?)

很明显,合格的词不仅要在外部有丰富的上文、下文,其本身内部也要满足一定的条件。上面我们讲过,词是一个基本的语义单元,意味着一般情况下不应该继续细分了,这也就意味着词内部要比较稳固或者内部凝固程度比较高。稳固意味着不可分,不可分如何衡量?

先说结论,我们用(点间)互信息衡量词内部的凝聚程度:

公式最右边是 , 假如 x 和 y 完全独立,,上面公式=0。

假如有一篇介绍临沂的文章,总共有 100 个字,其中,临沂出现 1 次,临出现一次,沂出现一次,那么 p(临,沂)=1/100, p(临)=1/100,p(沂)=1/100,

我们可以看到“临沂”这个

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值