4.13-classification

最新推荐文章于 2024-05-20 23:56:38 发布

ZHU883000

最新推荐文章于 2024-05-20 23:56:38 发布

阅读量71

点赞数

分类专栏：李宏毅机器学习课程笔记文章标签：机器学习

本文链接：https://blog.csdn.net/weixin_43220896/article/details/124150742

版权

李宏毅机器学习课程笔记专栏收录该内容

20 篇文章 1 订阅

订阅专栏

分类可以简单说是输入某个东西，输出是提前定好的类别之一。

先讲了它与regression的差别，或者说有些问题为什么不能用regression，应该用classification。

1.输出彼此之间是没有什么联系的，不存在比较关系，但是regression由于输出的是数字，一定会存在1和2跟1和3是比较接近的天然道理，然而在类别上，类别1和类别2跟类别1和类别3相比是一样的。

2.还是带有比较的说法，如果今天二分类，非要用regression来做，定义了值接近1和-1是两个类，也就是离1近的就是1这类，离-1进的就是-1这类，那么理想的分界线就应该是0这里。但是如果此时出现了数值>>远大于1的，regression其实会去纠正这些‘错误’的数值，从而让分界线不是在0这里。

classification的步骤，以二分类为例

1.它的function的基础架构可以是一个条件从句，满足就是class1，不满足就是class2，当然条件判断的具体函数g(x)还是需要是具体的

2.此时的loss就可以定义为train的时候，f得到错误分类的次数

3.classification就不能用gradient decent了，有其他新的方法，比如perception感知机，SVM支持向量机

升级版→

然后升级讲的更复杂，听了三遍都没太听懂，所以下面写的不一定对（还是二分类）

1.这个条件从句具体是指‘x是被从C1这个类中挑选出来’/‘x是C1这个类别的’的概率，如果这个概率大于0.5，那就是C1，如果不是就是C2。这里的P(C1|x)就是probability from class，这个时候的已知项是‘x的具体的特征值’、‘C1中包含的已知data的特征值’、‘P(C1)和P(C2)’；未知项是分子和分母中都有的这个P(x|C1)，它指的是‘C1中x的概率’，但是我们知道x是新的data，它就不在C1里面好嘛，所以这里其实不能说是可能性，而要被叫做概率。

——所以这里的思想是将C1各个点（比如有两种特征值，分别是横纵轴，此时每个data就是一个点）的用一个Gaussian distuibution高斯分布来拟合表示。那x从C1中选出的可能性就是这个高斯函数带入x数值时的结果。

2.那么loss值的判定就可以写成对这个高斯分布的好坏程度的判定，高斯分布只有两个参数：mean均值μ和covariance matrix协方差矩阵∑，一般来说μ决定分布的整体位置，∑决定分布的形状，当指定μ和∑其实就决定了高斯的样子，然后带入C1中本身就有的点（training data）就可以初步来判断高斯分布的好坏了。毕竟要是你这个高斯连训练的点都不在里面，那新的点x怎么可能在。（这里说的在和不在的意思其实是概率的大小，不要钻牛角尖）

——当然这里的可能性其实不是真正的概率分布，因为高斯函数时无限的，他其实任何一个高斯函数都能把今天C1里面的所有点的分布都涵盖进去，只是说真实点出现在分布中的概率不一样而已，但是如下图所示，明显是左边这个好一点，点在里面的概率很大，右边这个不是说不涵盖点，而是说真实点出现在这个分布里的概率很小，所以不同的高斯分布对于这些点有不同的可能性，叫 different likelihood。那么如何确定μ值和∑值，就用了一个maximum likelihood最大似然的方法。具体公式就是下面这个L(μ，∑)，他是C1里面所有点出现在该高斯分布的概率乘积。

3.所以今天在classification中，我们的任务从找一组loss最小的参数，变成了找一个 L(μ，∑)最大的，也就是满足 maximum likelihood最大似然的高斯分布，也就是求一组 μ-star，∑-star，然后有趣的是，数学计算之后，其实有公式，如上图， μ-star就是C1中这些个x点的平均值，∑-star则是上面公式写的。那这样我们就可以分别算出C1和C2对应的最适合的高斯分布，然后对于新的x我们就可以算出它带入这个分布的值，也就是从这个分布中抽出的可能性。

4.那么回到第一步，我们其实就可以来求P(C1|x)了，如下图等式右边分子分母的各个项应该怎么算、C1C2的高斯分布都算出来了，加上判标是0.5之后，可以得到一个结果。

——这个图这样解读（注意区分点的红蓝色和背景区域的红蓝色代表的意义）：横纵轴是本次选取的两个特征：defense防御力和SPdefence特殊防御力，蓝色的点是C1水系宝可梦，红色的点是C2正常系宝可梦的，那此时这个图上面任何一个没有被标出来的点我们都可以算它的P(C1|x)，也就是它是水系的可能性，然后这个可能性被画成了等高线图，红色是可能性高，蓝色是可能性低，也就是说右上角这些红色区域，如果新的x在这个地方，那么它是水系的可能性大。然后求出0.5这个分界线是长这样子的，一个弧线。

5.我们其实可以感受到这个图很维和，因为按道理右上角的红色区域表明这里的点是C1的可能性很大，但是C1包含的数据点是蓝色，蓝色点还挺多都不在这个区域内。红色的点C2的分布也不明朗。解释说是因为只取了两个特征点，指不定在考虑7个特征点的7维空间里面，会能把红蓝两个类别的点完美的分开。

来提优了，因为不止两种特征的效果不好，就算考虑了7个特征，最后的准确率也只有54%。所以开始修饰模型modifying model了。

然后提到了说如果每一个类别都给一组 (μ，∑)是不太常见的，因为这样其实会有很大的variance误差，所以会让不同类别的高斯公用一个∑，减少参数数量。这样的话，得到的就一定会是笔直的分界线，如下图，分界线是线性的。然后此时考虑所有的7个特征，并且公用∑之后，准确率到了73%。

其实除了高斯分布，也可以是其他分布，比如对于binary feature二进制特征，用Bernoulli distribution伯努利分布（01分布）会比高斯好。如果假设所有的特征/维度是independent相互独立的，那么可以使用Naive Bayes Classifier朴素贝叶斯分类器。

然后我们对P(C1|x)的式子变形一下，会得到这个，新定义一个z之后，P就可以写成z的sigmoid函数，然后z经过一系列运算后，并且让∑相同之后，其实可以简化成矩阵*x加常数，如下，也就是说，P(C1|x)=σ(w·x+b)，σ是sigmoid。这是一个线性的，所以为什么在Σ相同时，边界是直线了。