NLP | Logistic Regression

cx元

已于 2022-10-26 20:19:21 修改

阅读量467

点赞数

分类专栏： nlp 文章标签：自然语言处理机器学习逻辑回归

于 2022-10-26 19:48:14 首次发布

本文链接：https://blog.csdn.net/qq_45436365/article/details/127453391

版权

nlp 专栏收录该内容

10 篇文章 0 订阅

订阅专栏

1.模型数学本质

1.1 描述如下：

三个重要参数：weight bias sigmoid
首先定义： $Pw,b(C_1| x)\geq0.5$ 则取 $C_1$ ，否则取 $C_2$ .
逻辑回归的数学表述如下：
$f_{w,b}(x)=\sigma(z)=\frac{1}{1+e^{-z}}\quad,\quad z=\sum_iw_ix_i+b$
在这里插入图片描述
sigmoid function的作用：把输出结果控制在0-1之间。

1.2 求解步骤理解：

1.2.1

先假设训练数据集是由 $P_{w,b}(C1|x)$ 的分布产生的，则产生这组训练数据的概率为：
$L(w,b)=f_{w,b}(x_1)f_{w,b}(x_2)(1-f_{w,b}(x_3))...f_{w,b}(x_n)$
也就是说，我们需要选择合适的 $w$ 和 $b$ ，使得产生这组训练数据的可能性最大，即求 $L (w, b)$ 的最大值。

$a r g ma xL (w, b)$ 等价于 $a r g min - l n L (w, b)$
$-lnL(w,b)=lnf_{w,b}(x_1)+lnf_{w,b}(x_2)+ln(1-f_{w,b}(x_3))+...+lnf_{w,b}(x_n)\\ =\sum_n -[\hat{y}^nlnf_{w,b}(x^n)+(1-\hat{y}^n)ln(1-f_{w,b}(x^n))]$

而这里我们记 $C(f(x^n),\hat{y}^n)=-[\hat{y}^nlnf_{w,b}(x^n)+(1-\hat{y}^n)ln(1-f_{w,b}(x^n))]$ ，其实可以看出 $C(f(x^n),\hat{y}^n)$ 是两个Bernouli分布的交叉熵(cross entropy)

1.2.2 `交叉熵计算`

$H(p,q)=-\sum_x p(x)ln(q(x))$
代表两个分布的接近程度
在这里插入图片描述

到这里Logistic regression的极小化就可以写为 $L(f)=\sum_nC(f(x^n),\hat{y}^n)$ ，
仔细观察这个式子可以发现，由上面的叙述可知， $C(f(x^n),\hat{y}^n)$ 定义的是两种分布的交叉熵，也就是 $f(x^n)$ 和 $\hat{y}^n$ 这两种分布的交叉熵，而交叉熵表达了两种分布的相似程度，越接近0表示越相似，那么 $L (f)$ 的极小化也就等价于：
选择合适的参数 $w, b$ 使得估计的 $f(x^n)$ 和实际的 $\hat{y}^n$ 的分布尽量接近。

1.3 凸优化

采用随机梯度下降法不断更新 $w$ 和 $b$ 的值，以获取最优解。

1.4 logistic regression和linear regression的区别

1.4.1 区别

虽然logistic regression和linear regression更新参数的公式一样，但实际上 $\hat{y}^n$ 和 $f_{w,b}(x^n)$ 的取值是不一样的， $\hat{y}^n$ 和 $f_{w,b}(x^n)$ 可以是任何值， $f_{w,b}$ 也不同。

1.4.2 loss函数

logistic regression和linear regression的loss函数为什么不一样（为什么logistic regression 不采用 square error而要用cross entropy）？：
如下图所示，对逻辑回归来说，黑色为cross entropy，红色为squre error。可以看出，se在边缘地区梯度下降非常平缓，基本上和中心地区梯度变化一致，所以当梯度下降很慢时，无法确定是否已经优化到最优值（即是否在中心区域）；但对于cross entropy，边远地区梯度下降幅度很大，中心区域（最优值区域）梯度下降平缓，所以当梯度不再明显变化时可以很好的确定此处就是参数最优取值。
在这里插入图片描述

2.generative和discriminative区别：

generative eg.naive bayes:
discriminative: logistic regression
实际上这两种model的function set一模一样，对 $P(C_1|x)$ 的估计都是 $P(C_1|x)=\sigma(w \cdot x+b)$
不一样的地方在于，generative model预先假设数据分布符合某个概率模型例如gaussian或bernouli，根据模型假设来求 $w$ 和 $b$ 的值；而logistic regression并没有这种假设，直接求取 $w$ 和 $b$ 的值。
在这里插入图片描述
实例如下，按照generative model，（1，1）反而会被划分为class 2.