逻辑回归(Logistic Regression)

最新推荐文章于 2020-08-03 13:56:22 发布

JJmaker

最新推荐文章于 2020-08-03 13:56:22 发布

阅读量1.2k

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/qq_42522262/article/details/81947466

版权

机器学习专栏收录该内容

9 篇文章 0 订阅

订阅专栏

逻辑回归(Logistic Regression)

这是一个软性二分类问题：关心的是目标函数的值(分布在[0,1]之间)，表示正类的概率是多少。值越接近于1，表示正类的可能性越大。

目标函数： $P(+1|x)\in [0,1] \Leftrightarrow P(y|x) = \{^{f(x), for \ y = +1}_{1-f(x), for \ y = -1}$

理想中的数据是分布在[0,1]之间的具体值，但是实际中的数据只可能是0或1，可以把实际中的数据看成是理想数据加上了噪声的影响。
其 hypothesis 为 sigmoid 函数： $\frac{1}{1+e^{-w^Tx}}$
目标：求出这个预测函数，使它接近目标函数 $f (x)$
似然性：若找到一个 hypothesis h(x) 很接近 target function，也就是说，在所有的 hypothesis 中找到一个h(x)与f(x)最接近，能产生同样的数据集D，则称这个h(x)为最大似然性。

假设数据集 $\{(x_1,\circ),(x_2,\times),\dots,(x_N,\times)\}$
probability that f generates D:
$P(x_1)f(x_1)\times P(x_2)(1-f(x_2))\times \dots \times P(X_N)(1-f(X_N))$
likelihood that h generates D:
$P(x_1)f(x_1)\times P(x_2)(1-f(x_2))\times \dots \times P(X_N)(1-f(X_N))$
(若 $h\approx f$ ,则likelihood h的公式如上所示)

logistic function: $\theta(w^Tx)$ 满足一个性质： $1 - h (x) = h (- x)$ .
那么，likelihood h的公式为:
$P(x_1)h(+x_1)\times P(x_2)h(-x_2)\times \dots P(x_N)h(-x_N)$

因为 $P(x_n)$ 对所有的h来说都是一样的，所以可以忽略。则ikelihood正比于所有的 $h(y_nx_n)$ 的乘积。
目标是使乘积最大化。

$max_h likelihood(h) \propto \prod_{n=1}^{N}h(y_nx_n)$
将w带入：
$max_w likelihood(w) \propto \prod_{n=1}^{N}\theta(y_nw^Tx_n)$
为了简化计算，引入 $\ln$ 操作：
$max_w \sum_{n=1}^N\ln \theta(y_nw^Tx_n)$
将maximize问题转化为minimize问题，并引入平均数 $\frac{1}{N}$ :
$min_w\frac{1}{N}\sum_{n=1}^N -\ln\theta(y_nw^Tx_n)$
将logistic function $\theta(s)$ 的表达式带入，得：
$min_w\frac{1}{N}\sum_{n=1}^N\ln(1+exp(-y_nw^Tx_n))$
$\Longrightarrow min_w\frac{1}{N}err(w,x_n,y_n)$
由此得到了logistic function的err function,称之为cross-entropy error 交叉信息熵:
$err(w,x,y)=\ln(1+exp(-yw^Tx))$
则接下来的目标是：找到合适的向量w，使err(即训练误差 $E_{in}$ )最小。

$E_{in}$ 的曲线是凸函数，那么只要计算出 $\nabla E_{in}=0$ 时的w，即为最优解。
$\nabla E_{in} = \frac{1}{N}\sum_{n=1}^N\theta(-y_nw^Tx_n)(-y_nx_n) = 0$
其中 $\theta(-y_nw^Tx_n)$ 可看成时 $y_nx_n$ 的线性加权。
要使线性加权和为0，有两种情况：
第一种：若所有的权重 $\theta(-y_nw^Tx_n)=0$ ,则 $\nabla E_{in}=0$ 因为 $\theta(-y_nw^Tx_n)$ 为sigmoid function，只要 $y_nw^Tx_n<<0$ ,即 $y_nw^Tx_n>>0$ ,就可使结果为0。而 $y_nw^Tx_n>>0$ 表示对所有的点 $y_n$ 和 $w^Tx_n$ 都是同号的，这表示数据集必须是线性可分的才能成立。
但是，保证线性可分不现实，更多的情况是线性不可分的。
第二种：非线性可分，只能通过使加权和为0来求解w。这种情况只能使用迭代来逐步求解。
将 $E_{in}$ 曲线比作一个山谷，则使 $E_{in}$ 最小，即可比作下山的过程。整个下山过程受两个因素影响：下山的单位方向 $\nu$ 和下山的补偿 $\eta$ .
利用微分思想和线性近似，根据泰勒一节展开：
$E_{in}(w_t+\eta\nu) \approx E_{in}(w_t)+\eta\nu^T\nabla E_{in}(w_t)$
要让 $E_{in}(w_t+\eta\nu)<E_{in}(w_t)$ ,则 $\nu$ 方向要与 $E_{in}$ 方向相反，
令下降方向 $\nu$ 为：
$\nu = -\frac{\nabla E_{in}(w_t)}{||\nabla E_{in}(w_t)||}$
$\nu$ 是单位向量, $\nu$ 每次都是沿着梯度的反方向走，这种方法称为梯度下降*(gradient descent)
那么：
$w_{t+1} \leftarrow w_{t} - \eta\frac{\nabla E_{in}(w_t)}{||\nabla E_{in}(w_t)||}$

令 $\eta\prime = \frac{\eta}{||\nabla E_{in}(w_t)||}$ ,则：
$w_{t+1} \leftarrow w_t - \eta\prime\nabla E_{in}(w_t)$
根据该公式不断循环，最终即可求得w

总结一下基于梯度下降的logistic regression算法步骤：
$\cdot$ 初始化w
$\cdot$ 计算t梯度 $\nabla E_{in}$
$\cdot$ 迭代 $w_{t+1} \leftarrow w_t - \eta\prime\nabla E_{in}(w_t)$
$\cdot$ 当满足 $\nabla E_{in}(w_{t+1}) = 0$ 或达到迭代次数时，迭代结束。

接下来从另一个角度来说逻辑回归。
这种方法也是梯度下降，但是使用的cost function与上面的 $E_{in}$ 不一样。
令 $\begin{cases} -\log(h_w(x)), &y=1\\ -\log(1-h_w(x)),&y=0 \end{cases}$
$\Longrightarrow$
$cost(h_w(x),y) = -y\log(h_w(x)))-(1-y)log(1-h_w(x))$
则整个数据集的cost function为：
$\frac{1}{N}\sum_{n=1}^Ncost(h_w(x_n),y_n)$

推导：
已知 $P(1|x) = h_w(x),P(0|x) = 1-h_w(x)$
那么 $P(y|x) = f(x)^y (1-f(x))^{(1-y)}$
,取对数，得：
$lgP= y\log(h_w(x))+(1-y)log(1-h_w(x))$ ,希望P越大越好。
取负号，变为loos function,希望其越小越好。
即：
$L= -y\log(h_w(x)))-(1-y)log(1-h_w(x))$
若有个样本，则公式变为：
$\frac{1}{N}\sum_{n=1}^N-y\log(h_w(x)))-(1-y)log(1-h_w(x))$
推导成功。

目的：求出最小的 $J (w)$
使用梯度下降法：
repeat{
$w_i = w_i - \alpha \frac{\partial J(w)}{\partial w_i}$
}

其中： $\frac{\partial J(w)}{\partial w_i} = \frac{1}{N}\sum_{n=1}^{N}(h_w(x_n)-y_n)x_{nj}$ ,
$w_j$ 表示第j个特征的权重。

注意：
sigmoid 函数 h(x) 的求导结果：
$h^{'} (x) = h (x) (1 - h (x))$

JJmaker

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
逻辑回归(Logistic Regression)

逻辑回归(Logistic Regression)这是一个软性二分类问题：关心的是目标函数的值(分布在[0,1]之间)，表示正类的概率是多少。值越接近于1，表示正类的可能性越大。目标函数：f(x)=P(+1|x)∈[0,1]⇔P(y|x)={f(x),fory=+11−f(x),fory=−1f(x)=P(+1|x)∈[0,1]⇔P(y|x)={1−f(x),fory=−1f(x),for...
复制链接

扫一扫