基于贝叶斯分类器的社区UGC反垃圾模型

最新推荐文章于 2021-12-07 14:05:00 发布

alicelmx

最新推荐文章于 2021-12-07 14:05:00 发布

阅读量172

点赞数

分类专栏：机器学习和自然语言处理相关文章标签：朴素贝叶斯文本分类 UGC

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/alicelmx/article/details/89308004

版权

机器学习和自然语言处理相关专栏收录该内容

31 篇文章 3 订阅

订阅专栏

业务背景

背景：某金融APP的有料社区中，存在潜在用户发布垃圾信息（敏感、广告）等信息，需要构建一个文本分类模型进行相应拦截。
业务特点：广告占主要部分，含有微信、借贷、基金、股票等，敏感占次要。
我遇到的问题：前期获取数据量少，需要人工处理，需要自定义分词词库和主题词词库，文本预处理过程复杂，需要全方位思考。

数据准备

先来看看数据的模样：
1. 正常：
2. 广告：
训练数据量：不便透露，使用过采样对样本少的类别进行数据集扩增。

主体思路及具体实现

主体思路：灵感来源于论文，使用基于词的过滤和贝叶斯分类器。
流程：
1. 训练离线分类模型：训练数据集 —> 文本清洗 —> jieba分词去停用词 —> 使用TF-IDF构建词向量 —> 使用NB算法结合K折交叉验证训练二分类模型（广告/非广告）。
2. 在线分类：训练数据集 —> 文本清洗 —> jieba分词去停用词 —> 使用TF-IDF构建词向量 —> 使用分类模型进行分类，标记广告类，对非广告类别使用敏感词库直接判别，标记正常和敏感信息。
文本清洗详解：
分为以下几个方面：特殊符号、日期、特殊字体字、拼写错误、电话、QQ、微信号、股票、拼音、基金号，以上各自都有各自的处理方式。比如特殊符号和日期直接去除，微信、QQ等广告关键信息的统一等等。
定制词库：
定制了以下词库：停用词词库、敏感词库。

TF-IDF算法存在的问题

以词频衡量一个词的重要性不够全面；
算法无法体现词的位置信息。

总结

我在三个月的实习过程中，接触到了完全真实的业务场景，这是我以前所没有的。
虽然这个模型部署到线上之后效果还不错，但是回想起来还有很多值得改进的地方，也有很多想做的尝试。
尝试和改进的地方：

图片的处理；
增加对用户行为的挖掘。

社区反作弊文章

https://blog.csdn.net/joylnwang/article/details/6831565
https://www.zhihu.com/question/20103086
https://www.jianshu.com/p/065fb03cf921

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
基于贝叶斯分类器的社区UGC反垃圾模型

一个以前写的落地项目的总结
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。