Lecture 4 Classification
本讲主要讲述了基于概率模型的分类器
分类的应用场景就很多了,如信用卡评分、疾病诊断、模式识别等等等等。
1.为什么不用回归而用分类
因为那些离回归函数比较远但却是正确的点会带了很大的error
2.初步的想法
对于一个二分类问题,采用如下方式:
哪个类别的P(C|x)大就判为哪一类;
其中P(C1)和P(C2)可以根据训练集中类别的个数来估算(只是估算,并不是准确的值),算一下训练数据里两类各占多少即可;
P(x|C1)和P(x|C2)需要做一些假设,比如假设是高斯分布什么的……
3.高斯分布的假设
假设P(x|C1)和P(x|C2)分别服从不同均值不同方差的高斯分布,利用样本,可根据极大似然估计的原理来估计均值和方差:
每个样本有n特征,均值就是n维的,方差是n*n维的
下图以宝可梦为例,选取了两个类别:water、Normal。每个样本有两个特征:SP、Defense。
于是估计完均值和方差之后,就可以把高斯分布代入原来的贝叶斯公式了:
但效果似乎不太好,把特征数增加到7个效果不佳。
这里有个问题,随着特征数的增加,方差矩阵维数越来越高,对于每一个类别都要算一个方差矩阵,计算量也会很大。
4.共用方差矩阵
分类面也由曲面变成了超平面(这个之后会解释),精确率也得到了提升,说明共用方差矩阵这种改进还是有效的!
7.使用其它的分布、贝叶斯分布
上述假设P(x|C1)和P(x|C2)服从高斯分布,但实际上还可以假设服从别的分布,比如每个样本x只有两个特征(binary features),则可以假设P(x|C1)和P(x|C2)服从伯努利分布(Bernouli distribution)
如果假设每个特征的是相互独立的,即
则上述分类器被称为
贝叶斯分类器(bayes classifier)
8.超平面
课程了最后从数学的角度解释了当共用方差时,分类曲面变成了平面。