中文脏话识别的解决方案

最新推荐文章于 2022-01-25 15:41:17 发布

weixin_30780649

最新推荐文章于 2022-01-25 15:41:17 发布

阅读量359

点赞数

原文链接：http://www.cnblogs.com/zyfd/p/9640469.html

版权

本文来自网易云社区

要识别，先定义脏话的概念。谩骂、人身攻击等粗俗语言均可定义为脏话。这类内容如果频繁出现在社区、产品评论中，对产品氛围的维护有相当大的负面影响。

网易云安全（易盾）将这类内容统称为“谩骂”，也是垃圾内容的一个类别。识别方案包含以下几种：

1）关键词识别：中文谩骂内容常出现的类目，易盾已覆盖了绝大部分，积累了大量的垃圾样本，涵盖了目前常出现的垃圾内容，可以准确识别；

2）模型识别：将谩骂样本加入训练库，提取相同特征，由模型对文本进行识别。模型也将随模型的训练提高精度。语义识别算法可以精确识别语义，可以根据上下文内容进行语义识别，防止仅依靠关键词而造成的的误判漏判。

网易云安全（易盾）是网易云旗下一站式云安全服务，有此需要者可点击免费试用。

相关文章：
【推荐】一个只有十行的精简MVVM框架

转载于:https://www.cnblogs.com/zyfd/p/9640469.html

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_30780649

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

脏话文本检测方案

鲁班七号

11-21

2192

目录1. 场景2. 方案3. 数据增强4. 代码 1. 场景在问答系统中用户问题可能存在违规情况，包含涉政、色情、辱骂文字的文本视为违规文本。本文提出一种违规文本检测方案，本方案仅限于判断文本是否包含违规内容，属于文本分类问题。 2. 方案方案流程图如下所示。违规词和疑似违规词由人工收集，文本中匹配到违规词则识别为违规文本，例如“煞笔”。文本匹配到疑似违规词或者fasttext模型判断为违规文本则进一步由RoBERTa模型判断。 3. 数据增强为了防止被系统屏蔽，用户通常会魔改违规用语

Profanity Check: 一站式脏话检测工具

最新发布

gitblog_00038的博客

04-16

982

Profanity Check: 一站式脏话检测工具去发现同类优质开源项目:https://gitcode.com/ 是一个轻量级且高效的Python库，用于检测文本中的不恰当或冒犯性词汇。该项目由开发者vzhou842维护，并在GitCode平台上开放源代码，旨在帮助内容审核、社交媒体监控以及家庭友好应用等领域进行自动过滤和净化文字。技术分析 Profanity Check的核心是基于预训练...

参与评论您还未登录，请先登录后发表或查看评论

Google脏话检测API

AndyLizh的专栏

11-05

3479

简介 What do you love? 本是Google的一个搜索工具，但是其中隐含着一个可用于检测脏话的接口。比如，搜索最通俗的高雅词：f#ck，就会自动将这个词换成kittens（小猫咪）……可爱的谷歌。 Demo http://www.wdyl.com/profanity?q=fuck 接口类型 HTTP（GET） / UTF-8 接口返回值 json

过滤脏字算法

09-12

net过滤脏字的代码，一般用于处理论坛等言论的敏感词过滤，我主要用到了代码内的TrieFilter工具类，其他工具类若有需求可以自行研究

《20个令无数家长困惑问题的解决方案实用.pdf

02-22

在《20个令无数家长困惑问题的解决方案实用.pdf》这本书中，作者旨在为父母提供一系列实际有效的亲子教育策略，解决他们在育儿过程中遇到的各种难题。这本书以口语化、易理解的文字，介绍了20个常见的家庭教育问题...

ASP版智能脏话过滤系统：小型、易用、强效

智能脏话过滤系统是基于Web应用的一种内容监控解决方案，其核心功能是识别和屏蔽网络中的不适当用语。ASP（Active Server Pages）是微软开发的一种服务器端脚本环境，用于创建动态交互式网页。该系统利用ASP技术，...

Rails 插件实现英文脏话过滤功能

资源摘要信息:"Rails 英文脏话...它支持基本替换和字典术语两种过滤方式，为不同需求的场景提供了可定制的解决方案。通过集成这个插件，开发者可以将精力集中在业务逻辑和用户体验的提升上，而不必担心内容不当的问题。

WordCleaner: JavaScript脚本清除网页脏话

WordCleaner提供了一个简便的自动化解决方案，帮助网站快速实现基本的内容过滤，从而提升网站的管理效率和用户体验。 6. 编写自定义脚本的注意事项开发类似WordCleaner的自定义脚本时，需要考虑语言的多样性和复杂...

谷歌脏话检测API

乐杨俊浅谈LAMP

05-22

2158

骂人脏字过滤mysql_oracle_sqlserver数据库.txt

09-14

支持MySQL Oracle sqlserver都可以使用，常见常用的一些不好看，不好听，不好的词语都在内部有所记录，希望贵公司的语言环境能有一个非常舒适的聊天环境，能给大家带来价值是我的荣幸

强大灵活的脏字过虑：1万字文章过虑1万关键词用时只要1毫秒（包括扩展的高亮功能）

03-30

NULL 博文链接：https://javatgo.iteye.com/blog/1318495

chinese_text_cnn：TextCNN Pytorch实现中文文本分类情感分析

02-03

TextCNN Pytorch实现中文文本分类论文参考依赖项 python3.5 pytorch == 1.0.0 torchtext == 0.3.1 jieba == 0.39 词向量（这里用的是Zhihu_QA知乎问答训练出来的单词Word2vec）用法 python3 main.py -h 训练 python3 main.py 准确率 CNN-rand随机初始化嵌入 python main.py Batch[1800] - loss: 0.009499 acc: 100.0000%(128/128) Evaluation - loss: 0.0000

骂人的话数据库，可以编写骂人的小程序，比如python语言编写。另附加python代码。

04-19

from pynput.mouse import Button, Controller as mouse_Controller from pynput.keyboard import Key, Controller as key_Controller f = open("骂人.txt", encoding="utf-8") txt = f.read() lis_txt = txt.split("\n") time.sleep(5) mouse = mouse_Controller() keyboard = key_Controller() mouse.press(Button.left) mouse.release(Button.left) for i in range(101): key_world = random.choice(lis_txt) time.sleep(0.2) keyboard.type(key_world) keyboard.press(Key.enter) keyboard.release(Key.enter)

转脏字/ 敏感词汇搜索算法

tattarrattat的专栏

09-17

3946

字符串多模式精确匹配（脏字/敏感词汇/关键字过滤算法）——TTMP算法之实战F模式Sumtec 2008-02-08 22:49 阅读:6353 评论:15 字符串多模式精确匹配（脏字/敏感词汇搜索算法）——TTMP算法之B模式概述Sumtec 2008-02-04 17:51 阅读:2520 评论:6 字符串多模式精确匹配（脏字/敏感词汇搜索算法）之算法前传IISumtec 2008-02-03 15:13 阅读:2896 评论:11 字符串多模式精确匹

小姐姐如何利用TextCNN识别脏话

ningyanggege的博客

04-29

2754

“网络喷子”群体的出现，使新闻文章中的谩骂评论屡见不鲜。为了净化平台和保证用户体验，如何自动拦截谩骂评论是亟待解决的问题。本文旨在利用卷积神经网络构建谩骂评论的自动识别模型，用机器对抗喷子。新闻文章的评论中，经常会出现谩骂评论，包括对新闻当事人的辱骂、对小编的问候以及评论回复中对楼主的攻击等，不仅会影响平台的品质和逼格，更主要的是会影响用户体验。所以如何减少谩骂评论的出现是一个值得解决的问题。...

脏字匹配（脏字字典以|分隔）

programmerfanwei的博客

05-29

1946

public class DirtyWordHandler { private HashSet<string> hash = new HashSet<string>(); private byte[] fastCheck = new byte[char.MaxValue]; private BitArray charChec...

java脏字过滤方法

阿锦的博客

08-19

1001

public class DirtyFilter { private int rs = -1; public String[] dirtyArr = {};//脏字数组 public boolean containDirty(String str){ if(str !=null && str != ""){ System.out.println(str); Arrays.sort(dirty...

JAVA两种实现文本敏感词检测的方式

yukariistama的博客

01-25

4624

1.基于DFA算法的实现 1.1 DFA介绍 DFA即Deterministic Finite Automaton，也就是确定有穷自动机，它是是通过event和当前的state得到下一个state，即event+state=nextstate。 1.2构建模型举个例子来说，在bash脚本命令检测中，我们规定“rm”，“reboot”，“shutdown”,"::","/dev/null","rmr"为敏感词，则我们需要根据这6个敏感词来构建检测模型，使用json格式来表示： {"r":{"e":