机器学习笔记4
Classification
如果用回归方法做classification
可能会出现远大于1的regression被认为是错误的情况。
理想情况:
假设两特征服从高斯分布
首先我们利用已有的79个sample得到一个样本的高斯分布函数,也就是均值和方差
对于一个新的x,我们已知高斯分布函数,于是便可以带入概率密度函数中,得到这个x在这个样本类别中的概率。
如何利用sample获得最佳的高斯分布函数?
最大似然估计
给定一个高斯分布,我们可以利用这79个点得到每个点在这个分布下出现的概率。将他们连乘,得到似然。
当这个概率,或者说似然最大时,便得到了最佳的高斯分布。
最大值计算得:
得到两种神奇宝贝的分布后,便可以将新样本带入进行分类:
如此便可以得到初步分类结果(二维空间:defense and SP defense)
用高斯分布来描述二者的关系。
分不出来,换到7维空间(结果仍不好):
如何改进?(强迫使用同样的协方差)
如此便可以联合使用同一个似然:
如何确定联合的协方差?
使用上文算出的两个协方差加权平均得到
产生的结果:分类边界成为了直线(二维)
即:Linear model
加入其他维,效果变好
分类器的Three steps:
为什么用高斯概率分布?
其实可以选择自己喜欢的,适合的
1-D:假设各feature间毫不相关,称为朴素贝叶斯分类器(如下图)
对于binary 特征(0或1),可以用伯努利分布,而不应用高斯分布
后验概率
一些推导:
从这个式子便可以看出,得到的边界应是直线
给定一个样本x,将其带入公式即可得到class的概率
Logistic regression(直接回归w,b)
由sigmoid激活的linear regression
逻辑回归与线性回归的区别:
为什么逻辑回归不使用均方根误差?
找到最好的w,b
区别在于:y的值是1或0还是真实值
如果用均方根误差:遇到某些差值很大的x,梯度仍会很小。
Discriminative : 即logistic regression方法
Generative:高斯分布方法
同一模型,不同的function得到的不同的w,b
直观的例子来解释Discriminative的精确性:
但是并不是所有情况下都是Discriminative更好
Generative model 受data影响更小,因为他有自己的假设(高斯概率分布假设需要更少的data,更robust,朴素贝叶斯独立假设等)
Generative model使用先验和基于类别的概率,他们可以来自于不同的来源(例如在语音辨识中,先验概率不需要数据集而可以在网上爬取足够多的数据来得到某句话出现的概率P(C1))
Multi-class Classification(3 as example)
Softmax的实现:
逻辑回归的limitation:
无法解决异或问题
解决方法:特征转换
当我们找不到好的transformation时:
级联regression models:
相当于令机器先做transformation,再做分类!
经过第一级的transformation之后,以等高线形式画在图x1,x2平面中: