svm总算告一段落,真正复习起来,发现还有好多东西没有深入的去推导和学习,学习之路漫漫且修远。
说起逻辑回归(《统计学习方法》上叫它逻辑斯谛回归,西瓜书上叫它对数几率回归),它经常和线性回归、SVM放在一起说,NG老师就是用线性回归引出逻辑回归,又用逻辑回归引出SVM的概念。其实逻辑回归的本质是线性模型(在西瓜书第三章中介绍了三种线性模型:线性回归,对数几率回归,线性判别分析),因此我们先通过线性回归看看线性模型的一些特点
【线性模型】
线性模型一般写作:
f(x)=w1x1+w2x2+...+wdxd+b f ( x ) = w 1 x 1 + w 2 x 2 + . . . + w d x d + b ( x x 有 个特征,用 xi x i 表示第 i i 个特征)
向量形式:
别看线性模型形式简单,但很多功能强大的非线性模型就是在线性模型基础上通过引入层级结构或高维映射得来的。(让人想起了线性SVM到非线性SVM)
【线性回归】
假设给定数据集 D= D = {
(x1,y1),(x2,y2),...,(xm,ym) ( x 1 , y 1 ) , ( x 2 , y 2 ) , . . . , ( x m , y m ) },其中 xi=(xi1,xi2,...,xid) x i = ( x i 1 , x i 2 , . . . , x i d ) , yi∈R y i ∈ R
线性回归的模型如下:
f(xi)=wxi+b f ( x i ) = w x i + b
我们尽可能的通过改变 w w 和
的值来拟合这个模型,使得 f(xi)≃yi f ( x i ) ≃ y i (也就是尽可能使预测值渐进等于真实值),那么如何确定 w w 和
呢?我们需要一个方法来度量预测值 f(x) f ( x ) 和 y y 的差距。在线性回归中,我们常用均方误差最小化(最小二乘法)来度量,其主要思路就是试图找到一条直线,使所有样本到直线上的欧式距离之和最小。公式如下(假设每个样本x只有一个特征):
求解上式 w∗ w ∗ 和 b∗ b ∗ ,其实就是很简单的求偏导过程:
∂E(w,b)∂w=2(w∑i=1mx2i