[阅读笔记]-2 通过朴素贝叶斯模型学习机器学习分类

最新推荐文章于 2024-10-06 23:30:01 发布

jsBeSelf

最新推荐文章于 2024-10-06 23:30:01 发布

阅读量113

点赞数 1

分类专栏：机器学习笔记文章标签：机器学习分类学习人工智能

本文链接：https://blog.csdn.net/m0_46203495/article/details/124637457

版权

机器学习笔记专栏收录该内容

9 篇文章 0 订阅

订阅专栏

《Python Machine Learning By Example》 Third Edition 第二章笔记

文章目录

1 介绍

通过本章，我们可以学习到：

什么是机器学习分类？有哪些种类？
贝叶斯定理，最大后验估计，贝叶斯分类器的机制
分类模型评估
微调模型

2 机器学习分类

其实就是学习样本特征与目标类别之间的映射。
通常，分类任务有三种：二分类，多分类，多标签分类。

二分类：顾名思义，目标类别只有两种，经典的例子有：垃圾邮件过滤，广告点击，客户流失等等。
多分类：也叫多项式分类（multinomial classification），目标类别在两种以上，最为经典的例子就是手写数字识别，也常常被用来评估分类器的好坏。
多标签分类：容易和多分类的概念搞混，但是其实区别也很明显。对于多分类，一个物体或者一张图片只会属于目标类别中的一个标签，但是多标签就意味着可以包含目标类别中的多个，比如蛋白质的功能（运输，抗体，存储等等），电影的类别（恐怖，冒险，科幻等等）。

有很多模型可以用来解决分类问题，如朴素贝叶斯，SVM，决策树，逻辑回归等等，下一部分就介绍朴素贝叶斯的机理。

3 朴素贝叶斯

朴素：为了简化概率计算，研究问题时，假设各个特征之间是相互独立的。贝叶斯：即它来源于贝叶斯定理。
贝叶斯定理：P(A∩B) = P(A)*P(B|A)=P(B)*P(A|B)，得到了两个条件概率的关系，变形后就变成了：P(A|B)=P(B|A)*P(A)/P(B)。在我理解里，A表示一种采样，B表示一种事件，比如文中的抛硬币的例子：有一枚公平的硬币和一枚不公平的硬币，拿起它们的机会相等，问拿到不公平的硬币并抛出head的概率有多少？这里面的A就表示在一次硬币选择（采样）中，选择不公平硬币的概率，此处为0.5，而B就表示抛出head的事件。因为P(B)对于任何采样都是不变的，所以通常可以忽略不计（若真要算，则需要使用全概率公式），只考虑P(A|B)∝P(B|A)*P(A)，其中，P(A)为先验概率（prior），可以通过分析数据集中的标签分布来求出，被认为是对世界的一种估计，P(B|A)为似然（likelihood），其实可以简单理解为概率，在后面‘知识补充’中还会提到，P(A|B)为后验概率（posterior），就是给定观测数据，计算属于哪一类别的概率。
文中给出了计算例子，但这里不进行列举（懒），网上有很多计算的例子。不过，有个注意点。在计算似然时，有时候因为样本数据比较少，有些类别下，某一特征的值从来没有出现过，这就导致似然的值为0，从而计算出的后验概率也粗暴地认为该类别概率为0，这不利于分类，所以还需要使用拉普拉斯平滑：设定一个平滑参数，在每个似然计算时，分子加上该平滑参数，分母加上类别总数*该平滑参数，即可解决这种问题。
在代码编程方面，可以按照计算标签分布，计算似然，计算全概率，最后根据测试样本计算后验的顺序实现，也可以用scikit-learn库来实现）

4 分类模型评估

评估分类模型的指标有很多：Precision，Recall，F1 score，AUC等等。

Precision，Recall涉及到伴随矩阵的概念，从上到下，从左到右分别为Ture Positive，True Negative，False Positive，False Negative（不一定）。Precision为TP/（TP+FP），即预测的正例中正确的比例，所以除以所有预测的正例的个数；Recall为TP/（TP+FN），即所有正例中，被预测出的比例，所以除以所有的正例的个数。
F1 score是Precision，Recall的调和平均，即F1 score = 2 * P * R / (P + R)，如果Precision，Recall都高，F1 score就高。
AUC为ROC曲线下面积。首先是ROC曲线，全称为receiver operating characteristic（接受者操作特征曲线），‘接受者操作特征’是什么意思呢？ROC曲线中的横轴为FPR（False Positive Rate，假阳率），即FP/（FP+TN），代表在负样本中，被识别为真的概率，纵轴为TPR（True Positive Rate），其实就是前面的Recall。因为模型给出的概率是一个连续值，而不同的接受者有不同的处理方式（阈值），有些人认为此概率高于0.5，就是True，根据他的这个阈值判断，可以计算出对应的TPR和FPR，就会在图中形成一个点，而有些人认为要高于0.8才是True，也能形成一个点，如果将所有无穷多个接受者的操作连成一条线，就是ROC曲线了。通常认为AUC为0.7-0.8为佳，0.8以上则更好。

5 微调模型

可以使用上一章介绍的交叉验证来调节模型的参数，这里可以调节的参数其实就是拉普拉斯平滑里的平滑系数，分别计算不同系数下，AUC的平均值，再取令AUC均值最高的参数即可。

知识补充

1）朴素贝叶斯有三种，分别用于处理不同的分布：1.Gaussian Naïve Bayes：处理高斯分布，即特征值是连续值的情况，假设每个类别相关的值服从正态分布；2.Multinomial Naïve Bayes：处理多项分布，即特征值是离散的，且有两种以上的可能值；3.Bernoulli Naïve Bayes：处理二项分布，即特征值只有两种可能。
2）似然与概率分别是针对不同内容的估计和近似。概率(密度)表达给定θ下样本随机向量X = x的可能性，而似然表达了给定样本X = x下参数θ为真实值的可能性。
在我的理解下，比如：有三个人可能单独出现在附近的球场打球，每个人在球场打球都可能会打破玻璃，那么如果玻璃还没破，此时讨论的是他们三个人去打破玻璃的概率（条件概率：既是这个人在打球，并且他打破了玻璃），如果玻璃破了，反过来讨论是他们中的每个人打破的可能性，即似然。这里把人物看作类别，玻璃破为一个观测样本。