垃圾评论分类

最新推荐文章于 2022-10-08 11:17:37 发布

changtingwai58

最新推荐文章于 2022-10-08 11:17:37 发布

阅读量2k

点赞数

文章标签： spark 数据朴素贝叶斯垃圾评论分类

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/sinat_27612639/article/details/51821569

版权

该博客介绍了如何对垃圾评论进行分类，包括数据特征准备，如使用词典将评论转换为one hot向量，接着利用Spark的朴素贝叶斯进行训练，再在测试集上预测并评估模型的精准率、召回率和AUC值，最后讨论了模型参数调优的方法。

摘要由CSDN通过智能技术生成

一、数据特征准备

1选取汉语词典（包含常用词，姓名等） -> one hot 向量
2选取停用词词典 ->去除停用词的影响
3选取同义词词典 ->增加表达多词同意的能力
4选取比较长的固定搭配词典，比如成语，乐队名字等，增加分词正确率

通过以上词典将每一句评论转换成one hot 向量，作为训练数据与测试验证数据集

二、spark 训练
使用spark的朴素贝叶斯训练数据

import sparl.mllib.classification.NaiveBayes
NBmodel = NaiveBayes.train(train_data)

三、在测试集上预测

result = NBmodel.predict(test_data)

四、评估模型

非垃圾评论	被识别为非垃圾	被识别为垃圾
35000	34800	200

垃圾评论	被识别为垃圾	被识别为非垃圾
10000	8300	1700

非垃圾识别精准率：

P = 34800 35000

最低0.47元/天解锁文章

关注

0
点赞
踩
7

收藏

觉得还不错? 一键收藏
3
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 3

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。