Lecture 11: Linear Models for Classification
11-1 二分类的线性模型
在上一节比较了线性分类,线性回归和逻辑回归:
那么linear classification求解Ein时是NP难问题,能否由后两者帮忙求解?
算出三种情况的error function,分别为:
可以画出error function的图为:
其中,scaled ce=log2(1+exp(-ys)),为了使得ys=0时都切于一点。
只要有regression,就能做classification:
线性回归优点:最容易;缺点:和0/1相差较多。
逻辑回归优点:比较容易;缺点:上限宽松。
PLA优点:线性可分时效果不错;缺点:线性不可分时要使用pocket。
线性回归可以用来设置其他方法中的w0。
人们相比pocket,更愿意用逻辑回归。
11-2 Stochastic的梯度下降(随机梯度下降SGD)
PLA:每一轮只看一个点;逻辑回归:每一轮要看所有点。
那逻辑回归怎么才能和PLA一样快呢?
答:使用随机梯度下降,这样省去了求整体梯度的过程。
优点:简单代价小;缺点:没法预测每步结果是否准确,所以不太稳定。
逻辑回归的SGD和PLA是大致相同的。
在SGD里决定什么时候停很困难(一般选择迭代次数)。
一般选取yita=0.1(经验数字)
11-3 逻辑回归的多分类问题(Multiclass)
方法:one class at a time一次先分一种,这样就可以做是非题了。
改进:原先方法的soft版,不是二分,而是probability。
这种方法我们叫它为one-versus-all方法(OVA)。
优点:效率高;缺点:当类别太多时容易出现unbalance。
11-4 多分类和二分类
one-versus-one方法(OVO),四类点可产生六种分类器,六个分类器对于每个点投票得出结论。
优点:有效率,每次的分类器没有用全部点;缺点:分类器多的时候存储空间大,预测时间长。