游戏内聊天广告拉人数据监测

以用户的角度的来看,图像(包括视频)和文字(包括语音)应该是互联网内容的主要存在形式,相应的两项关键AI技术——计算机视觉(computer vision,CV)和自然语言处理(natural language process,NLP)也是近几年最火爆的领域和话题。但是一直以来,大量的垃圾信息充斥在互联网的内容之中。
接下来以游戏内的垃圾聊天文本检测为例:。
很多游戏(大部分端游、页游和相当部分的手游)在游戏中都有玩家间发送聊天文本的功能,作用范围包括玩家与玩家,玩家与群组(喇叭)等,也是游戏内社交功能很重要的一环。随着玩家规模的增长,常常会出现一些低素质的玩家辱骂别的玩家、辱骂游戏、广告推销甚至诈骗等,非常影响正常玩家的游戏体验。以下列举了一些常见垃圾文本数据的统计情况(不同应用场景和游戏下各类型占比可能不同):

不同的垃圾文本由于其来源用户的目的不同,可能在发言的常用词、发言数量、频次、主题等方面具有不同的特征,我们可以利用这些特征进行有效的文本检测。

1,敏感词匹配
这是比较传统的反文本垃圾技术,通过现有的垃圾本文词库对聊天数据进行匹配(如正则)。优点是容易操作,有一定的准确率;缺点是检测性能非常依赖已有词库的数量和质量。尤其是各地(骂人)方言博大精深和新的网络流行语层出不穷,词库人工维护的成本较高,比如我跟Leader说‘妈卖批’,他对我保持微笑:),并不知道是什么意思¯▽¯。另外由于中文的特点,同样的敏感词,经过一些变形便很难通过直接正则的方式检测到。举个喜闻乐见的例子,对于“裸聊”这个敏感词,其有多种变形,
同音字:罗聊
形近字:果聊
拆字:衤果 耳 卯
干扰字:裸==》耳 卯y d l 加我qq
可利用拼音匹配(同音字),笔画匹配(形近字,拆字),去特殊字符干扰等手段进一步检测。
,2,发言频率检测
以宣传为目的的广告和钓鱼型的垃圾文本,通常会利用小号在短时间内进行大量的发言发帖,刷屏博取眼球,追求高曝光率。针对这类用户,统计其发言时长,根据自定义的发言数量(如每天发言300次)和发言频率阈值(如平均发言间隔为15秒)等参数设计综合的检测规则,即可检测出一些大量、频繁发言的广告推广和钓鱼文本。
,3,话题重复
当垃圾发言用户有意识地利用一些反(反垃圾)的技术时,比如上图每条留言后加入了无规则不同长度的随机字符;比如利用不同的汉字和词语的变形、不同的句式对文本内容进行伪装等都会对传统的检测手段带来更大的挑战。但万变不离其本意,发言的内容和主题一定是相似的,此时,利用NLP中语意分析、主题分析相关的技术(如LDA模型)即可有效的检测出此类伪装的垃圾文本。具体可在一段时间内,对用户的所有聊天记录进行主题分析,若涉及不同主题的数量除以总发言数为一个极小的值,则该用户很可能是一个垃圾发言用户。

4,独立的垃圾检测分类器(基于学习的技术)
除了大量频繁发言的垃圾发言,还有相当一部分发言是数量并没有特别多,或者同一个用户涉及了较多不同的主题的垃圾发言;还有就是一些用户偶尔的垃圾发言,但是由于用户基数较大,这类垃圾发言的总量也不可忽略。这时候,由于每个用户的发言数量较少,基于简单基于统计的检测手段可能失效。我们把发言大致分为“色情”,“灌水”,“脏话”,“广告”,“其他”等几种Label,基于我们长期累计和爬取的垃圾文本数据,借助基于大数据训练的垃圾文本分类器(采用神经网络,svm,Deep learning等技术)对每条用户发言进行独立的垃圾文本检测判断。

总结
实际的垃圾文本可能是上述提及的各类文本的混合,因此也需要组合利用上述各种文本检测技术进行综合判断。智能的垃圾文本检测技术可以取代大部分人工审核工作量,节省运营成本,但是新型的垃圾文本层出不穷,垃圾和反垃圾也和经典的加密解密技术一样,也是互相促进的。
原文链接:https://blog.csdn.net/songhk0209/article/details/70947392

  • 2
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值