《机器学习实战》学习笔记之朴素贝叶斯(Naive Bayes)
原理
假如邮箱中有n个单词,如果returnVec[i]=0代表这个单词在这封邮件中不出现,returnVec[i]=1代表这个单词在邮件中出现了。
设训练集中每个邮件都有标记为是垃圾邮件和不是垃圾邮件,是垃圾邮件的分类为1,不是垃圾邮件的分类为0。
算法原理:
提取邮件内单词,改写为小写单词输入字典,过滤长度不大于2的单词,利用词汇表计算出单词属于正常词汇的概率p0V=(正常邮件中该单词
原创
2016-01-17 10:18:20 ·
1172 阅读 ·
0 评论