李宏毅2020机器学习深度学习笔记 P11 Logistic Regression

shunjian666

已于 2022-11-18 12:11:36 修改

阅读量237

点赞数 1

分类专栏：李宏毅2020机器学习深度学习笔记文章标签：深度学习逻辑回归人工智能 python

于 2022-11-18 12:09:54 首次发布

本文链接：https://blog.csdn.net/shunjian666/article/details/127919863

版权

李宏毅2020机器学习深度学习笔记专栏收录该内容

1 篇文章 0 订阅

订阅专栏

Logistic Regression

Step1:Function Set

目的：

要找几率 $Pw,b(C_1|x)$
若 $Pw,b(C_1|x) \ge 0.5$ ，输出为C1;
若 $Pw,b(C_1|x) \lt 0.5$ ，输出为C2。

若要用高斯分布， $Pw,b(C_1|x)=\sigma(z)$
[ $\sigma(z)=\frac{1}{1+e^{-z}}$ ]

把z带进 $\sigma(z)$ 就得到几率
$z=w\cdot x+b=\sum_{i}w_ix_i+b$

Function Set:

$f_{w,b}(x)=P_{w,b}(C_1|x)$

(下标为w和b的意思是f是受w和b的控制的)

$f_{w,b}(x)=P_{w,b}(C_1|x)=\sigma(z)=\frac{1}{1+e^{-z}}$

Logistic Regression

$f_{w, b}(x)=\sigma(\sum_{i} w_{i} x_{i}+{b})$
他的输出通过signoid function，所以是介于0到1之间的

Linear Regression

$f_{w, b}(x)=\sum_{i} w_{i} x_{i}+b$
他的输出没有通过signoid function，所以他的output可以是任何值

Step2:Goodness of a Function

定义损失函数（LOSS）来评价模型好坏
$w^*,b^*=\argmax_{w,b}L(w,b)=\argmin_{w,b}(-lnL(w,b))$
通过ln 将连乘变成连加，简化了计算机的计算
在计算机中，连乘后的数值容易溢出，变成连加后，数值不容易溢出。
$-lnL(w,b)=\sum_{n}-[\hat{y}^n lnfw,b(x^n)+(1-\hat{y}^n)ln(1-fw,b(x^n))]$
注： $\sum_{n}-[\hat{y}^n lnfw,b(x^n)+(1-\hat{y}^n)ln(1-fw,b(x^n))]$
这一项是两个Bernoulli distribution（伯努利分布）的cross entropy（交叉熵）
若把Distribution p:
$p(x=1)=\hat{y}^n$
$p(x=0)=1-\hat{y}^n$
与Distribution q:
$p(x=1)=f(x^n)$
$p(x=0)=1-f(x^n)$
进行交叉熵运算(cross entropy)
$q)=-\sum_{x} p(x) \ln (q(x))$
则算出的结果就是 $-[\hat{y}^n lnfw,b(x^n)+(1-\hat{y}^n)ln(1-fw,b(x^n))]$

定义function的好坏

Logistic Regression

Training Data: $(x^n,\hat{y}^n)$
$\hat{y}^n$ :1 for class 1,0 for class 2
$L(f)=\sum_{n} C(f(x^{n}), \hat{y}^{n})$
他的loss是所有例子交叉熵的总和，也就是 $x^n与\hat{y}^n$ 的交叉熵
希望function的输出与目标相差越小越好

Linear Regression

Training Data: $(x^n,\hat{y}^n)$
$\hat{y}^n$ :a real number
$L(f)=\frac{1}{2} \sum_{n}(f(x^{n})-\hat{y}^{n})^{2}$

Step3:Find the best function

经过复杂的数学运算后，得到
$w_i=w_i-\eta \sum_{n}-(\hat{y}^n-f_{w,b}(x^n))x_i^n$

$C(f(x^n),y^n)=-y^nlnfw,b(x^n)-(1-y)ln(1-fw,b(x^n))$
Q：为什么logistic regression的损失函数不能和linear regression一样，选square error(平方误差)？
A：logistic regression + square error不容易得到很好的结果，而cross entropy容易得到很好的结果，会让training顺很多。

Discriminative v.s. Generative

把Logistic Regression（逻辑回归）的方法称为Discriminative（判别模型）的方法
用Gaussian distribution（高斯分布）来描述Posterior Probability（后验概率）的方法是Generative（生成模型）的方法。

生成模型作了假设，而判别模型没有作假设。

生成模型： ${P}({C}_{1} \mid {x})=\frac{{P}({C}_{1}) {P}({x} \mid {C}_{1})}{{P}({C}_{1}) {P}({x} \mid {C}_{1})+{P}({C}_{2}) {P}({x} \mid {C}_{2})}=\sigma({z})$
判别模型： $z=(\mu^{1}-\mu^{2})^{{T}} \Sigma^{-1} {x}-\frac{1}{2}(\mu^{1})^{{T}} \Sigma^{-1} \mu^{1}+\frac{1}{2}(\mu^{2})^{{T}} \Sigma^{-1} \mu^{2}+\ln \frac{{N}_{1}}{{~N}_{2}}$
同样的数据，用生成模型和判别模型得到的w和b是不一样的。