一. 分类的概率论基础
贝叶斯分类准则为:
★如果
,那么属于类别
★如果
,那么属于类别
应用贝叶斯准则:
可以通过已知的三个概率值来计算未知的概率值。
二. 用朴素贝叶斯进行文档分类
使用朴素贝叶斯分类的一般过程为:
①收集数据:可以使用任何方法
②准备数据:需要数值型或布尔型数据
③分析数据:有大量特征时,绘制特征作用不大,使用直方图效果更好
④训练算法:计算不同独立特征的条件概率
⑤测试算法:计算错误率
⑥使用算法:常见应用是文档分类
前文中的独立是指统计意义的独立,即一个特征出现的可能性与其他特征没有关系。朴素是指整个形式化过程只做最简单、最原始的假设。
三. 使用python进行文本分类
1. 准备数据:从文本中构建词向量
本文把文本看成是单词向量或词条向量,也就是将句子转换为向量。
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
|
def
loadDataSet():
postingList
=
[[
'my'
,
'dog'
,
'has'
,
'flea'
,
'problems'
,
'help'
,
'please'
],
[
'maybe'
,
'not'
,
'take'
,
'him'
,
'to'
,
'dog'
,
'park'
,
'stupid'
],
[
'my'
,
'dalmation'
,
'is'
,
'so'
,
'cute'
,
'I'
,
'love'
,
'him'
],
[
'stop'
,
'posting'
,
'stupid'
,
'worthless'
,
'garbage'
],
[
'mr'
,
'licks'
,
'ate'
,
'my'
,
'steak'
,
'how'
|