38个敏感词_敏感词运营体系搭建手册—正则关键词

051a8ac9c1d07614d529ebc795ae2c57.png

859ea4657b8e80136cca7f52b42d3b33.png

 a86db10c7c264cd211fe749981f2c316.png

正则基础语法符号解析

45f3f5fb84f700447c2ae2020bc74657.png

35fb8f13bf63bb166b82371068311adb.png

4c0169f3ba4e150911cf535716334cde.png

59deb29ae2caa73200275add56cf6f8c.png

9d0bb39c9bc5a805455325a3d4e7cb38.png

c78e453bafe7bdcbad2823af2ca8c939.png

8ecc5178ead46fb04bdd6623dd12bc40.png

c6ba6df91151ba019090c24dec85ccef.png

7086257438196a4a5d98acd75d3b92ef.png

6512384462699b3fba735c3978055517.png

d108de83f06d4c92b4e500591e3b5742.png

4521640ea3fee958788d6446848cb01c.png

ad4059b1b67e5a1f9b446cb4ca46c5e2.png

46a5a7d598a5f02f97c45bee180a8a30.png

36e7afa2cb4f10ef7ba3fc8ba8e40d67.png

84ccfe814dff98b61ff9074e1ce4b3e9.png

7a58a20f384380c3a756788f18c117dd.png

8ec0141d167105072bf64bd600042be3.png

da33f12f777d7c1b092d5ae9e1b1c234.png

b23187546494bab7de47098f18df98e3.png

c2af3b455167659d8204a0596deb173b.png

a4fcaa1c0182716843f1cce443b193e2.png

以上14个是正则基础元素的详细解释,把关人们要牢记下,为了方便大家记录,我们已经给大家做好了思维导图大梳理,拿走不谢!

41762c10bf50a3ec2058a17195801602.png

书写方法

a66e94650f4cf61754d279d2173f6fe9.png

我们可以通过在线测试工具 (https://c.runoob.com/front-end/854) 来查看匹配效果!

2ac92cbd39da3e28a6a40eb9cd5036fa.png

案例

接下来我们再看一个案例,如果我们需要精准匹配多个样式的语句如果来撰写表达式呢? 要求:撰写一个正则表达式只命中AC,不误伤BD内容。 A: 我买了张盗版的Windows95操作系统个人版安装盘

B: 我买了张正版的Windows2000操作系统的安装盘 

C: 我买了张Windows98操作系统个人版的安装盘 

D: 我买了张盗版的Windows操作系统企业版的安装盘

第一步: 提取AC两句话中的关键词为【操作系统】 第二步: 为增加精准度我们需要给【操作系统】添加一个条件:Windows(95|98)操作系统 第三步: 规避BD中的误伤内容,要求前面不能出现正版,后面必须出现个人版等词,则关键词为:(? 我们来测试效果,如图

2b9a62f514621326cc2353ebb95808b7.png

 

书写要求

正则表达式关键词书写要求: 1.正则符号需要英文输入法状态下书写; 2.正则关键词的书写大部分都是各种基础正则符号的组合使用; 3.一定要语义完整清晰,避免误伤; 4.多组合、多裂变、多积累

bff2ad8e0e9d00dd35b3ce0ca48d0733.png

正则表达式在线测试地址: https://c.runoob.com/front-end/854 https://tool.oschina.net/regex#  

未来趋势-NLP

互联网面前人人平等,因此人们可以非常轻易的暴露自己黑暗的一面。为了避免其他用户看到、接触到、受到这些黑暗信息的影响,敏感词系统应运而生。有了关键词和正则表达式关键词的搭配使用,我们的命中准确率会大大提高。这不仅承担着为产品过滤基础风险的功能,同时作为基础系统承担着为公众提供一个天朗气清的网络环境的作用。但是正则表达式书写门槛高学习难,而且仅用敏感词系统无法满足在细分领域的数据沉淀和复用。因此敏感词风控也需要不断的优化和改进,关键词运营需要利用AI技术,也就是NLP-自然语言处技术来增强语义识别功能,扩充添加渠道,及时发现及时处理;同时敏感词系统和舆情系统结合,成为负面舆情控制和处理的强大工具。 我们下次具体来聊聊敏感词库智能NLP场景搭建方法,晚安!

- END - 

一夫当关 | 万夫莫开

图文编辑 | 一夫

📖

  点击下方图片,一起做新时代把关人   063735c4b5267b113e083244522e8b71.png 
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值