1.我们不利用classificaion而利用regression来分类的时候会遇到的问题
在update的时候,regression因为一些噪点,或者偏离的点,逐渐将boundry远离了原本的目的函数,比如说图中的紫色和绿色。这是欧几里得距离或者说最小二乘法的一个缺点(弹幕里说)会惩罚那些太正确的点,在一边但是太过火的那些点。
理想情况怎么样呢
输入数值,输出discrete(某个种类 )。
这个的loss函数难以用gd,因为这个没有微分啊,但是有另外两个的方法
分类是用下面这个情况
这个叫做generative modle,即为(生成模型),可以generate一个x出来,可以产生distribution,可以产生一个x,sample x
先计算p(c1)和p(c2 )。从第一个Water系里面sample出来一个宝可梦的几率是0.56
挑一只水系的,可能是海龟的几率?
如果从水系里面挑一只出来,是海龟的几率到底有多少
gaussian distribution 高斯分布
输出vector是x,output是被sample出来的几率,是probability的density
同样的不同的
,或者同样的
,不同的
都会有最高分布的不同,最高程度的一样,分布的散的不一样。
假如可以从79个点中估测出gaussian的(mean)
可以理解为由样本生成高斯分布,再用海龟的数据去找到高斯分布的位置
给一个新的点x,不在这个79个的sample里面
知道and
,就可以吧gaus distribution 的 function给写出来,代入new x ,可以知道这个新的x被sample出来的几率。
怎么找这个 and
,使用的是maximum likelihood
任何一个高斯都有可能sample出来这个值
只是有些的几率很低,有些的几率很好,但没有一个说是就等于0的,他们sample出这79个点的likelihood是不一样的,有的比较高,有的比较低。
如果给我某一个高斯,的 and
,我们就可以sample出这79个点的几率
此时有一个l,它的作用就是吧 and
代入到likelihood的function当中,之后就会告诉我们,这个
and
sample出来这个79个点的几率到底有多大。
79个点是独立被sample出来的几率,所以总的几率就是sample出来每个点的几率。
现在的两个的mean和variance
现在可以 进行分类的
已知了几个概率,一个是两个高斯分布,由此可知道p(x/c1)也可以额从高斯分布中得到
可以通过颜色来分类,右边红色的被分类成为水系,左边的被分类成为普通系。因为是用几率在分类,所以大于0.5的,现在用在test上面的测试正确率只有47%。但是现在只是二维的,也许我们能够使用高维空间来解决此类问题。机器学习的牛逼的地方,就是可以在高位的空间。
可以在七维的高位空间
七维的高位空间,此时的正确率只有54%
此时来讲怎么去改进
(我觉得可以用图像识别能够去进行分类-因为种族值和到底是哪一种的关系不太大-说实话。不如看 )
不一定每一个class都有自己的一个高斯模型,比较常见的使用方法是,不同的 可以share同一个covariance matrix ,如果model都有differ 从covariance参数那么就有太多的parameter,容易过拟合。
x79里面平均起来就是 ,唯一要考虑的就是
。但是
非常简单。是使用bishop chapter4.2.2。这部分真的太抽象了。使用共同的高斯的时候,covariance matrix是这样的。
共用之后,boundary变成了一条直线,这样的boundary是一个linear(线性)的model 。此时再考虑所有的feature(7个feature)此时的正确率就变成了73%(所以是为什么呢,需要进行机器学习可解释化,炼丹之术)
哈哈哈哈为什么选这个probability distribution 是依据个人喜好的,哈哈哈哈。
如果每一个dimension,只有对角线才是1,得到一个更简单的模型,全部都在一维。朴素贝叶斯决策,各个特征独立。没有什么关系的话,甚至还有一些binary 的特征值。
这里就有sigmoid function。
其他的就不再学习了。之后再补充吧