朴素贝叶斯实现垃圾信息分类


朴素贝叶斯实现垃圾信息分类

代码github

1.贝叶斯定义(贝叶斯算法介绍)

P(A|B) = P(B|A) * P(B) / P(A)

2.训练过程

中文分词(以下简称特征),过滤掉中英文符号,数字,字母,单个词
将所有特征组成一个去重的词向量列表
计算各个特征在所有分类下的概率

3.分类预测

将待分类数据,分词,向量化
根据贝叶斯公式计算各个分类下的概率,取最大概率即分类结果

4.优化

概率取对数,防止四舍五入对概率的影响
每个特征加1,防止单个特征概率为0

5.总结

训练9000条数据,预测2000条数据,正确率在95%左右
接下来还需要对特征进行处理,提高正确率,如过滤掉只出现一次的特征,加入语义相关性分析等

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值