nlp之朴素贝叶斯算法

最新推荐文章于 2023-02-17 17:24:29 发布

IT趣闻史

最新推荐文章于 2023-02-17 17:24:29 发布

阅读量244

点赞数

文章标签：自然语言处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/dengwei_dw/article/details/105379477

版权

原始文本 -> 分词 -> 清洗（去除无用标签，去除听用词，大小写转换等） -> 标准化 -> 特征提取(tf-idf , word2vec) -> 建模（相似度算法，分类算法等AI算法）

语言模型：

LM

p(是|今天)=0.01

p(今天)=0.002

p(周日|是）=0.001

p（周日|今天）=0.0001

p（周日）=0.02

p（是|周日）=0.0002

比较：今天是周日 vs 今天周日是

P(今天是周日）=p(今天）*p(是|今天）*p（周日|是）= 0.002 * 0.01*0.001

p（今天周日是）=p(今天）*p(周日|今天）*p（是|周日）

P(今天是周日） > p（今天周日是）

朴素贝叶斯算法：

垃圾邮件（3封）

点击获取更多信息

购买最新产品优惠

优惠信息点击链接

正常邮件(3封）

明天一起开会

开会信息详见邮件

最新竞品信息

新邮件：

最新产品实惠点击链接

是属于正常邮件还是垃圾邮件？

解决思路如下：

训练模型：

v（词库）={点击获取更多信息购买最新产品优惠链接明天一起开会详见邮件竞品} L(v)=15

p(垃圾)=3/6=1/2 p(正常)=1/2

p(点击|垃圾）=(2+1)/(13+15)=3/28 p(点击|正常)=(0+1)/(10+15)=1/25

p(获得|垃圾）=（2+1）/28=3/28 p(获得|正常）=1/25

p(最新|垃圾）=2/28=1/14 p(最新|正常）=2/25

p(产品|垃圾）=1/14 p(产品|正常）=1/25

p(实惠|垃圾）=3/28 p(实惠|正常）=1/25

p（链接|垃圾）=1/14 p(链接|正常) = 1/25

预测

最新产品实惠点击链接

p（垃圾|邮件) = p(邮件|垃圾) p(垃圾)=1/14*1/14*3/28*3/28*1/14 *1/2

p(正常|邮件）=p(邮件|正常）p（正常）=2/25*1/25*1/25*1/25*1/25*1/2

p（垃圾|邮件) > p(正常|邮件）

所以预判为垃圾邮件

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
nlp之朴素贝叶斯算法

原始文本 -> 分词 -> 清洗（去除无用标签，去除听用词，大小写转换等） -> 标准化 -> 特征提取(tf-idf , word2vec) -> 建模（相似度算法，分类算法等AI算法）语言模型：LMp(是|今天)=0.01p(今天)=0.002p(周日|是）=0.001p（周日|今天）=0.0001p（周日）=0.02p（...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。