朴素贝叶斯分类器训练过程分析

本文详细介绍了朴素贝叶斯分类器的训练过程,包括如何从数据集中获取特征,如何构建特征表示列表,以及如何进行训练。通过案例展示了如何处理训练数据,计算各类别的概率以及单词在类别中的条件概率。最后,讨论了分类器的改进方法,如处理概率为0的问题和词袋模型的局限性。
摘要由CSDN通过智能技术生成

转载来源,系列阅读:http://pocore.com/blog/article_495.html

原文链接

这是一个识别论坛不当言论的案例

步骤一:获得这个问题的全部特征(标称型)
所谓标称型数据:是可以化成0 1表示的数据

用于案例训练的数据如下:
dataSet: [['my', 'dog', 'has', 'flea', 'problems', 'help', 'please'], ['maybe', 'not', 'take', 'him', 'to', 'dog', 'park', 'stupid'], ['my', 'dalmation', 'is', 'so', 'cute', 'I', 'love', 'him'], ['stop', 'posting', 'stupid', 'worthless', 'garbage'], ['mr', 'licks', 'ate', 'my', 'steak', 'how', 'to', 'stop', 'him'], ['quit', 'buying', 'worthless', 'dog', 'food', 'stupid']]

获得这个问题的全部特征做法如下
依次循环取得一行
document: ['my', 'dog', 'has', 'flea', 'problems', 'help', 'please']

set化可获取词列表{'please', 'has', 'flea', 'help', 'my', 'problems', 'dog'}

循环每步和上一步获得set取并集
{'please', 'maybe', 'not', 'him', 'to', 'has', 'stupid', 'flea', 'help', 'my', 'problems', 'take', 'park', 'dog'}
...

list化最终得到训练数据的不重复词库如下:
word:['love', 'please', 'not', 'has', 'how', 'stop', 'is', 'cute', 'dog', 'ate', 'worthless', 'I', 'stupid', 'flea', 'dalmation', 'problems', 'take', 'park', 'buying', 'to', 'steak', 'food', 'posting', 'quit', 'so', 'maybe', 'licks', 'him', 'mr', 'my', 'help', 'garbage']


步骤二:实现输入词条得到上一步的词库状态特征表示列表

上一步得到的不重复词库:
vocabList: ['has', 'stop', 'him', 'not', 'take', 'how', 'to', 'dalmation', 'maybe', 'is', 'food', 'steak', 'dog', 'my', 'I', 'stupid', 'posting', 'licks', 'park', 'please', 'worthless', 'problems', 'cute', 'garbage', 'ate', 'flea', 'mr', 'help', 'love', 'quit', 'buying', 'so']

举例要获取词库特征表示列表的输入语句列表表示如下

  • 7
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值