1.基本概念
Logistic regression主要应用与分类问题,和回归问题一样同属于“监督学习”。在二分类问题中,其主要思想是设定某一个阈值(threshold),当超过该阈值时,判定结果为1;否则为0。如下例:
我们假定当tumor size大于一定程度的时候,我们就认为该肿瘤为恶性肿瘤(malignant)
2.模型函数h(hypothesis)
在logistic regression中,我们认为模型函数为,其中函数g被定义为sigmoid函数:g = 1./(1+ 1./exp(z));
由此,进一步解析该模型得:
3.Cost Function——J(θ)
该模型代价函数如下:
J = sum(-(y.*log(hx) + (1-y).*log(1-hx)))/m;
正则化优化:
其中,j从0开始,到n结束
偏导数:对任意特征θ_j求偏导:
grad = (X'*(hx - y))/m;
正则化优化:
其中,j从0开始,到n结束
4.Advanced Optimization(高级优化)
在之前的Linear regression中,我们使用gradient descent(梯度下降)来寻找J(θ)的最小值,该方法也同样可以运用在我们的logistic regression中,在这里我们使用更高级的函数fminunc函数(无约束最小化函数),在该函数中,自带智能内循环,无须我们选择学习率alpha,该函数能自带选择最优的学习率。关于该函数的用法可借鉴:Matlab中fminunc函数的意义 以及options函数的初级用法。
5.Multi‐class classificaon: One-‐vs-‐all