朴素贝叶斯在数据较少的情况下仍然有效,可以处理多类别问题,但是对输入数据的准备方式较为敏感。贝叶斯决策理论的核心思想是选择具有最该概率的决策。
应用贝叶斯准则得到:
如果 那么属于类别c1否则属于类别c2
使用朴素贝叶斯进行文档分类:
要从文本中获取特征,需要先拆分文本。特征是来自文本的词条,一个词条可以字符的任意组合。将文本看成是单词向量或者词条向量,将句子转换成向量。编写LoadDataSet()创建一些实验样本。该函数返回的第一个变量是进行词条切分的结合,第二个变量是由人工标注的侮辱和非侮辱性的标签集合。
操作符|用于求两个集合的并集。
下溢出,由于太多很小的数相乘,由于大部分因子都非常小,所以程序会下溢出或者得到不正确的答案。通过求对数可以避免下溢出或者浮点数舍入导致的错误。
将每个词的出现与否作为一个特征,被描述为词集模型。
每个词出现与否作为一个特征,词集模型。如果一个词在文档中出现不止一次,意味着包含该词是否出现在文档中所不能表达的某种信息,这种方法被称为词袋模型。
对于分类而言,使用概率有时要比使用硬规则更为有效。贝叶斯概率论集贝叶斯准则提供了一种利用已知值来估计概率的有效方法。
独立性假设是指一个词的出现的概率并不依赖于文档中的其它词。