神奇宝贝/数码宝贝分类器笔记-机器学习-李宏毅2021_李宏毅机器学习2021笔记宝可梦-CSDN博客

本文链接：https://blog.csdn.net/jcandzero/article/details/127026407

1.我们不利用classificaion而利用regression来分类的时候会遇到的问题

在update的时候，regression因为一些噪点，或者偏离的点，逐渐将boundry远离了原本的目的函数，比如说图中的紫色和绿色。这是欧几里得距离或者说最小二乘法的一个缺点（弹幕里说）会惩罚那些太正确的点，在一边但是太过火的那些点。

理想情况怎么样呢

输入数值，输出discrete（某个种类）。

这个的loss函数难以用gd，因为这个没有微分啊，但是有另外两个的方法

分类是用下面这个情况

这个叫做generative modle，即为（生成模型），可以generate一个x出来，可以产生distribution，可以产生一个x，sample x

先计算p（c1）和p（c2 ）。从第一个Water系里面sample出来一个宝可梦的几率是0.56

挑一只水系的，可能是海龟的几率？

如果从水系里面挑一只出来，是海龟的几率到底有多少

gaussian distribution 高斯分布

输出vector是x，output是被sample出来的几率，是probability的density

同样的 $\mu$ 不同的 $\Sigma$ ，或者同样的 $\Sigma$ ，不同的 $\mu$ 都会有最高分布的不同，最高程度的一样，分布的散的不一样。

假如可以从79个点中估测出gaussian的 $\mu$ （mean）

可以理解为由样本生成高斯分布，再用海龟的数据去找到高斯分布的位置

给一个新的点x，不在这个79个的sample里面

知道 $\mu$ and $\Sigma$ ，就可以吧gaus distribution 的 function给写出来，代入new x ，可以知道这个新的x被sample出来的几率。

怎么找这个 $\mu$ and $\Sigma$ ，使用的是maximum likelihood

任何一个高斯都有可能sample出来这个值

只是有些的几率很低，有些的几率很好，但没有一个说是就等于0的，他们sample出这79个点的likelihood是不一样的，有的比较高，有的比较低。

如果给我某一个高斯，的 $\mu$ and $\Sigma$ ，我们就可以sample出这79个点的几率

此时有一个l，它的作用就是吧 $\mu$ and $\Sigma$ 代入到likelihood的function当中，之后就会告诉我们，这个 $\mu$ and $\Sigma$ sample出来这个79个点的几率到底有多大。

79个点是独立被sample出来的几率，所以总的几率就是sample出来每个点的几率。

现在的两个的mean和variance

现在可以进行分类的

已知了几个概率，一个是两个高斯分布，由此可知道p（x/c1）也可以额从高斯分布中得到

可以通过颜色来分类，右边红色的被分类成为水系，左边的被分类成为普通系。因为是用几率在分类，所以大于0.5的，现在用在test上面的测试正确率只有47%。但是现在只是二维的，也许我们能够使用高维空间来解决此类问题。机器学习的牛逼的地方，就是可以在高位的空间。

可以在七维的高位空间

七维的高位空间，此时的正确率只有54%

此时来讲怎么去改进

（我觉得可以用图像识别能够去进行分类-因为种族值和到底是哪一种的关系不太大-说实话。不如看）

不一定每一个class都有自己的一个高斯模型，比较常见的使用方法是，不同的可以share同一个covariance matrix ，如果model都有differ 从covariance参数那么就有太多的parameter，容易过拟合。

x79里面平均起来就是 $\mu$ ，唯一要考虑的就是 $\Sigma$ 。但是 $\Sigma$ 非常简单。是使用bishop chapter4.2.2。这部分真的太抽象了。使用共同的高斯的时候，covariance matrix是这样的。

共用之后，boundary变成了一条直线，这样的boundary是一个linear（线性）的model 。此时再考虑所有的feature（7个feature）此时的正确率就变成了73%（所以是为什么呢，需要进行机器学习可解释化，炼丹之术）

哈哈哈哈为什么选这个probability distribution 是依据个人喜好的，哈哈哈哈。

如果每一个dimension，只有对角线才是1，得到一个更简单的模型，全部都在一维。朴素贝叶斯决策，各个特征独立。没有什么关系的话，甚至还有一些binary 的特征值。

这里就有sigmoid function。

其他的就不再学习了。之后再补充吧