4.13-classification

分类可以简单说是输入某个东西,输出是提前定好的类别之一。
先讲了它 与regression的差别,或者说有些问题为什么不能用regression,应该用classification。
1.输出彼此之间是没有什么联系的,不存在比较关系,但是regression由于输出的是数字,一定会存在1和2跟1和3是比较接近的天然道理,然而在类别上,类别1和类别2跟类别1和类别3相比是一样的。
2.还是带有比较的说法,如果今天二分类,非要用regression来做,定义了值接近1和-1是两个类,也就是离1近的就是1这类,离-1进的就是-1这类,那么理想的分界线就应该是0这里。但是如果此时出现了数值>>远大于1的,regression其实会去纠正这些‘错误’的数值,从而让分界线不是在0这里。
classification的 步骤,以二分类为例
1.它的function的基础架构可以是一个条件从句,满足就是class1,不满足就是class2,当然条件判断的具体函数g(x)还是需要是具体的
2.此时的loss就可以定义为train的时候,f得到错误分类的次数
3.classification就不能用gradient decent了,有其他新的方法,比如perception感知机,SVM支持向量机
 升级版→ 

然后升级讲的更复杂,听了三遍都没太听懂,所以下面写的不一定对(还是二分类)
1.这个条件从句具体是指‘x是被从C1这个类中挑选出来’/‘x是C1这个类别的’的概率,如果这个概率大于0.5,那就是C1,如果不是就是C2。这里的P(C1|x)就是probability from class,这个时候的已知项是‘x的具体的特征值’、‘C1中包含的已知data的特征值’、‘P(C1)和P(C2)’;未知项是分子和分母中都有的这个P(x|C1),它指的是‘C1中x的概率’,但是我们知道x是新的data,它就不在C1里面好嘛,所以这里其实不能说是可能性,而要被叫做概率。
——所以这里的思想是将C1各个点(比如有两种特征值,分别是横纵轴,此时每个data就是一个点)的用一个Gaussian distuibution高斯分布来拟合表示。那x从C1中选出的可能性就是这个高斯函数带入x数值时的结果。
2.那么loss值的判定就可以写成对这个高斯分布的好坏程度的判定,高斯分布只有两个参数:mean均值μ和covariance matrix协方差矩阵∑,一般来说μ决定分布的整体位置,∑决定分布的形状,当指定μ和∑其实就决定了高斯的样子,然后带入C1中本身就有的点(training data)就可以初步来判断高斯分布的好坏了。 毕竟要是你这个高斯连训练的点都不在里面,那新的点x怎么可能在。(这里说的在和不在的意思其实是概率的大小,不要钻牛角尖)
——当然这里的可能性其实不是真正的概率分布,因为高斯函数时无限的,他其实 任何一个高斯函数都能把今天C1里面的所有点的分布都涵盖进去,只是说真实点出现在分布中的概率不一样而已,但是如下图所示,明显是左边这个好一点,点在里面的概率很大,右边这个不是说不涵盖点,而是说真实点出现在这个分布里的概率很小,所以不同的高斯分布对于这些点有不同的可能性,叫 different likelihood。那么如何确定μ值和∑值,就用了一个maximum likelihood最大似然的方法。具体公式就是下面这个L(μ,∑),他是C1里面所有点出现在该高斯分布的概率乘积。
3.所以今天在classification中,我们的任务从找一组loss最 的参数,变成了找一个 L(μ,∑)最 的,也就是满足 maximum likelihood最大似然的高斯分布,也就是求一组 μ-star,∑-star,然后有趣的是,数学计算之后,其实有公式,如上图, μ-star就是C1中这些个x点的平均值,∑-star则是上面公式写的。那这样我们就可以分别算出C1和C2对应的最适合的高斯分布,然后对于新的x我们就可以算出它带入这个分布的值,也就是从这个分布中抽出的可能性。
4.那么回到第一步,我们其实就可以来求P(C1|x)了,如下图等式右边分子分母的各个项应该怎么算、C1C2的高斯分布都算出来了,加上判标是0.5之后,可以得到一个结果。
——这个图这样解读(注意区分点的红蓝色和背景区域的红蓝色代表的意义):横纵轴是本次选取的两个特征:defense防御力和SPdefence特殊防御力,蓝色的点是C1水系宝可梦,红色的点是C2正常系宝可梦的,那此时这个图上面任何一个没有被标出来的点我们都可以算它的P(C1|x),也就是它是水系的可能性,然后这个可能性被画成了等高线图,红色是可能性高,蓝色是可能性低,也就是说右上角这些红色区域,如果新的x在这个地方,那么它是水系的可能性大。然后求出0.5这个分界线是长这样子的,一个弧线。
5.我们其实可以感受到这个图很维和,因为按道理右上角的红色区域表明这里的点是C1的可能性很大,但是C1包含的数据点是蓝色,蓝色点还挺多都不在这个区域内。红色的点C2的分布也不明朗。解释说是因为只取了两个特征点,指不定在考虑7个特征点的7维空间里面,会能把红蓝两个类别的点完美的分开。

来提优了,因为不止两种特征的效果不好,就算考虑了7个特征,最后的准确率也只有54%。所以开始修饰模型modifying model了。
然后提到了说如果每一个类别都给一组 (μ,∑)是不太常见的,因为这样其实会有很大的variance误差,所以会让不同类别的高斯公用一个∑,减少参数数量。这样的话,得到的就一定会是笔直的分界线,如下图,分界线是线性的。然后此时考虑所有的7个特征,并且公用∑之后,准确率到了73%。
其实除了高斯分布,也可以是其他分布,比如对于binary feature二进制特征,用Bernoulli distribution伯努利分布(01分布)会比高斯好。如果假设所有的特征/维度是independent相互独立的,那么可以使用Naive Bayes Classifier朴素贝叶斯分类器。
然后我们对P(C1|x)的式子变形一下,会得到这个,新定义一个z之后,P就可以写成z的sigmoid函数,然后z经过一系列运算后,并且让∑相同之后,其实可以简化成矩阵*x加常数,如下,也就是说,P(C1|x)=σ(w·x+b),σ是sigmoid。这是一个线性的,所以为什么在Σ相同时,边界是直线了。
我们会发现如果一开始就能求出w和b的话,其实就不需要绕那么大圈子去从概率中解释了。但是很神奇,就感觉这个问题是从简到繁再到简的一个过程。
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值