目录
备注:本文主要来自于对《深入浅出python机器学习》书籍的学习总结笔记,感兴趣的同学可以购买本书学习,学习的本质就是形成自己的逻辑。
1、朴素贝叶斯算法基本原理
1.1 思想基础
对于给出的待分类项x={a1,a2....an},有类别集合y={y1,y2...yn},通过训练数据样本求解当x出现的情况下给类别出现的概率,即P(y1|x),P(y2|x)...P(yn|x),哪个概率最大就认为分类项x数据哪个类别。如发现P(y2|x)最大,就认为x的类别是y2。
如果各个特征a1...an独立,则根据贝叶斯定理,,即P(y1|x)=P(x|y1)*P(y1)/P(x)
由于分母都是P(x),只看分子即可,当各特征独立时有
1.2 简单应用案例
我们通过一个简单的案例来理解朴素贝叶斯算法,我们已知下面信息,0代表不发生,1代表发生:
##1-数据准备
#导入训练数据
import numpy as np
#将x,y赋值为np数组
x = np.array([[0, 1, 0, 1],
[1, 1, 1, 0],
[0, 1, 1, 0],
[0, 0, 0, 1],
[0, 1, 1, 0],
[0, 1, 0, 1],
[1, 0, 0, 1]])
y = np.array( [0, 1, 1, 0, 1, 0, 0])
#对不同分类y统计每个特征的数量
counts = {}
for label in np.unique(y):
counts[label] = x[y == label].sum(axis=0)
print("feature counts:\n{}".format(counts))