[阅读笔记]-2 通过朴素贝叶斯模型学习机器学习分类

《Python Machine Learning By Example》 Third Edition 第二章笔记

1 介绍

通过本章,我们可以学习到:

  • 什么是机器学习分类?有哪些种类?
  • 贝叶斯定理,最大后验估计,贝叶斯分类器的机制
  • 分类模型评估
  • 微调模型

2 机器学习分类

其实就是学习样本特征与目标类别之间的映射
通常,分类任务有三种:二分类,多分类,多标签分类。

  • 二分类:顾名思义,目标类别只有两种,经典的例子有:垃圾邮件过滤,广告点击,客户流失等等。
  • 多分类:也叫多项式分类(multinomial classification),目标类别在两种以上,最为经典的例子就是手写数字识别,也常常被用来评估分类器的好坏。
  • 多标签分类:容易和多分类的概念搞混,但是其实区别也很明显。对于多分类,一个物体或者一张图片只会属于目标类别中的一个标签,但是多标签就意味着可以包含目标类别中的多个,比如蛋白质的功能(运输,抗体,存储等等),电影的类别(恐怖,冒险,科幻等等)。

有很多模型可以用来解决分类问题,如朴素贝叶斯,SVM,决策树,逻辑回归等等,下一部分就介绍朴素贝叶斯的机理。

3 朴素贝叶斯

  • 朴素:为了简化概率计算,研究问题时,假设各个特征之间是相互独立的。贝叶斯:即它来源于贝叶斯定理。
  • 贝叶斯定理:P(A∩B) = P(A)*P(B|A)=P(B)*P(A|B),得到了两个条件概率的关系,变形后就变成了:P(A|B)=P(B|A)*P(A)/P(B)。在我理解里,A表示一种采样,B表示一种事件,比如文中的抛硬币的例子:有一枚公平的硬币和一枚不公平的硬币,拿起它们的机会相等,问拿到不公平的硬币并抛出head的概率有多少?这里面的A就表示在一次硬币选择(采样)中,选择不公平硬币的概率,此处为0.5,而B就表示抛出head的事件。因为P(B)对于任何采样都是不变的,所以通常可以忽略不计(若真要算,则需要使用全概率公式),只考虑P(A|B)∝P(B|A)*P(A),其中,P(A)为先验概率(prior),可以通过分析数据集中的标签分布来求出,被认为是对世界的一种估计,P(B|A)为似然(likelihood),其实可以简单理解为概率,在后面‘知识补充’中还会提到,P(A|B)为后验概率(posterior),就是给定观测数据,计算属于哪一类别的概率。
  • 文中给出了计算例子,但这里不进行列举(懒),网上有很多计算的例子。不过,有个注意点。在计算似然时,有时候因为样本数据比较少,有些类别下,某一特征的值从来没有出现过,这就导致似然的值为0,从而计算出的后验概率也粗暴地认为该类别概率为0,这不利于分类,所以还需要使用拉普拉斯平滑:设定一个平滑参数,在每个似然计算时,分子加上该平滑参数,分母加上类别总数*该平滑参数,即可解决这种问题。
  • 在代码编程方面,可以按照计算标签分布,计算似然,计算全概率,最后根据测试样本计算后验的顺序实现,也可以用scikit-learn库来实现)

4 分类模型评估

评估分类模型的指标有很多:Precision,Recall,F1 score,AUC等等。

  • Precision,Recall涉及到伴随矩阵的概念,从上到下,从左到右分别为Ture Positive,True Negative,False Positive,False Negative(不一定)。Precision为TP/(TP+FP),即预测的正例中正确的比例,所以除以所有预测的正例的个数;Recall为TP/(TP+FN),即所有正例中,被预测出的比例,所以除以所有的正例的个数。
  • F1 score是Precision,Recall的调和平均,即F1 score = 2 * P * R / (P + R),如果Precision,Recall都高,F1 score就高。
  • AUC为ROC曲线下面积。首先是ROC曲线,全称为receiver operating characteristic(接受者操作特征曲线),‘接受者操作特征’是什么意思呢?ROC曲线中的横轴为FPR(False Positive Rate,假阳率),即FP/(FP+TN),代表在负样本中,被识别为真的概率,纵轴为TPR(True Positive Rate),其实就是前面的Recall。因为模型给出的概率是一个连续值,而不同的接受者有不同的处理方式(阈值),有些人认为此概率高于0.5,就是True,根据他的这个阈值判断,可以计算出对应的TPR和FPR,就会在图中形成一个点,而有些人认为要高于0.8才是True,也能形成一个点,如果将所有无穷多个接受者的操作连成一条线,就是ROC曲线了。通常认为AUC为0.7-0.8为佳,0.8以上则更好。

5 微调模型

可以使用上一章介绍的交叉验证来调节模型的参数,这里可以调节的参数其实就是拉普拉斯平滑里的平滑系数,分别计算不同系数下,AUC的平均值,再取令AUC均值最高的参数即可。

知识补充

1)朴素贝叶斯有三种,分别用于处理不同的分布:1.Gaussian Naïve Bayes:处理高斯分布,即特征值是连续值的情况,假设每个类别相关的值服从正态分布;2.Multinomial Naïve Bayes:处理多项分布,即特征值是离散的,且有两种以上的可能值;3.Bernoulli Naïve Bayes:处理二项分布,即特征值只有两种可能。
2)似然与概率分别是针对不同内容的估计和近似。概率(密度)表达给定θ下样本随机向量X = x的可能性,而似然表达了给定样本X = x下参数θ为真实值的可能性。
在我的理解下,比如:有三个人可能单独出现在附近的球场打球,每个人在球场打球都可能会打破玻璃,那么如果玻璃还没破,此时讨论的是他们三个人去打破玻璃的概率(条件概率:既是这个人在打球,并且他打破了玻璃),如果玻璃破了,反过来讨论是他们中的每个人打破的可能性,即似然。这里把人物看作类别,玻璃破为一个观测样本。

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
很高兴听到你正在学习机器学习》这本经典的教材,下面我为你提供第十四章概率图模型的Python实现学习笔记。 ## 1. 朴素叶斯分类器 ### 1.1 数据准备 在本章中,我们将使用著名的鸢尾花数据集进行分类。首先,我们可以从sklearn库中导入该数据集。 ```python from sklearn.datasets import load_iris iris = load_iris() X = iris.data y = iris.target ``` ### 1.2 朴素叶斯分类器实现 接下来,我们可以使用sklearn库中的朴素叶斯分类器进行分类,具体实现如下: ```python from sklearn.naive_bayes import GaussianNB from sklearn.model_selection import train_test_split from sklearn.metrics import accuracy_score X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42) gnb = GaussianNB() gnb.fit(X_train, y_train) y_pred = gnb.predict(X_test) accuracy = accuracy_score(y_test, y_pred) print('Accuracy:', accuracy) ``` ### 1.3 结果分析 运行上述代码后,我们可以得到该模型在测试集上的准确率,结果如下所示: ``` Accuracy: 1.0 ``` 可以看出,该模型在鸢尾花数据集上表现出色,准确率达到了100%。 ## 2. 隐马尔可夫模型 ### 2.1 数据准备 在本节中,我们将使用一个简单的例子来介绍隐马尔可夫模型的实现。假设我们有一个长度为100的序列,每个位置上的值都是0或1,其中0和1出现的概率分别为0.6和0.4。我们可以使用numpy库生成这个序列。 ```python import numpy as np np.random.seed(42) sequence = np.random.choice([0, 1], size=100, p=[0.6, 0.4]) ``` ### 2.2 隐马尔可夫模型实现 接下来,我们可以使用hmmlearn库中的隐马尔可夫模型进行序列建模,具体实现如下: ```python from hmmlearn import hmm model = hmm.MultinomialHMM(n_components=2) model.fit(sequence.reshape(-1, 1)) logprob, states = model.decode(sequence.reshape(-1, 1)) print('Sequence:', sequence) print('States:', states) ``` ### 2.3 结果分析 运行上述代码后,我们可以得到该模型对序列的建模结果,结果如下所示: ``` Sequence: [0 0 0 0 0 0 0 0 0 0 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0] States: [1 1 1 1 1 1 1 1 1 1 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1] ``` 可以看出,模型对序列进行了建模,并输出了每个位置上的状态,其中0表示“假”,1表示“真”。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值