李宏毅机器学习课程梳理【四】：Logistics Regression

最新推荐文章于 2022-04-24 22:20:34 发布

-Emmie

最新推荐文章于 2022-04-24 22:20:34 发布

阅读量128

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/qq_44523014/article/details/117163275

版权

机器学习专栏收录该内容

18 篇文章 7 订阅

订阅专栏

文章目录

摘要
1 Logistics Regression分析步骤
2 对Logistics Regression选用Cross Entropy而非Square Error的说明
3 Generative与Discriminative的对比
4 展望

摘要

由于Generative方法参数过多，计算复杂且不易得到很好结果，在数学分析Generative结果表达式后，根据其线性模型，引入Logistics Regression方法。本文介绍了Logistics Regression的操作步骤，并分析其采用交叉熵作代价函数的优点，最后与Generative方法对比，解释Logistics Regression结果更好的原因。

1 Logistics Regression分析步骤

1.1 基础知识

Cross entropy between two Bernoulli distribution— $C\big( f(x^n),\hat y^n\big)=-[\hat y^nlnf(x^n) + (1-\hat y^n)ln\big(1-f(x^n)\big)]$ ，交叉熵，表示两个概率分布之间的差异。数值越小，差异越小。

Sigmoid函数，作为本文章的激活函数，模型应用此函数。

1.2 Step1：Function Set

上篇采用高斯分布，计算很多个参数才做出分类。本篇分析上篇中Generative model的表达式，数学推导出 $P(C_1|x)=\sigma(w \cdot x + b)$ ，那么最终目标就变成计算出vector w和constant b

模型采用 $f_{w,b}(x)=P_{w,b}(C_1|x )$ ，其值介于0到1之间，记作 $\sigma(z)$ ，表示后验概率Posterior Probability，其图像如图1。
sigmoid(z)

1.3 Step2：Goodness of a Function

现在有一组Training Data： $x^1 \in C_1, x^2 \in C_1, x^3 \in C_2, ..., x^N \in C_1$ ，
模型采用 $f_{w,b}(x)=P_{w,b}(C_1|x )$ ，
现在计算每一组不同的 $w, b$ 产生这组Training
Data的概率 $L(w,b)=f_{w,b}(x^1)f_{w,b}(x^2)\Big( 1-f_{w,b}(x^3)\Big) \cdot\cdot\cdot f_{w,b}(x^N)$ ，
概率最大的一组 $w, b$ 记为 $w^*,b^*$ ， $w^*,b^*=arg \max\limits_{w,b} L(w,b)=arg \min\limits_{w,b} -lnL(w,b)$ ，
$-lnL(w,b)=-lnf_{w,b}(x^1)-lnf_{w,b}(x^2)-ln\Big(1-f_{w,b}(x^3)\Big)\cdot\cdot\cdot\cdot\cdot\cdot$
做一个符号上的变换 $\hat y^n$ 表示： $x^n$ 属于class1时，值为1， $x^n$ 属于class2时，值为0；
$-lnL(w,b)=-[\hat y^1lnf(x^1)+(1-\hat y^1)ln\big(1-f(x^1)\big)]-[\hat y^2lnf(x^2)+(1-\hat y^2)ln\big(1-f(x^2)\big)]-[\hat y^3lnf(x^3)+(1-\hat y^3)ln\big(1-f(x^3)\big)]\cdot\cdot\cdot\cdot\cdot\cdot=\displaystyle\sum_n-[\hat y^nlnf_{w,b}(x^n)+(1-\hat y^n)ln\big(1-f_{w,b}(x^n)\big)]=\displaystyle\sum_nC\big(f(x^n),\hat y^n\big)$

1.4 Step3: Find the best function

采用Gradient descent，对 $- l n L (w, b)$ 做偏微分，得到 $\displaystyle\sum_n-[\hat y^n-f_{w,b}(x^n)]x_i^n$

1.5 小结

在这里插入图片描述

2 对Logistics Regression选用Cross Entropy而非Square Error的说明

假设选用Square Error，按照机器学习的三个步骤，进行Gradient descent时，对 $\big(f_{w,b}(x)-\hat y\big)^2$ 偏微分后，得 $2\big(f_{w,b}(x)-\hat y\big)f_{w,b}(x)\big(1-f_{w,b}(x)\big)x_i$ ，因为表达式只有这一项，而 $f_{w,b}(x)$ 和 $1-f_{w,b}(x)\big)$ 又是乘积因子，那么会导致参数更新非常慢，不容易得到好的结果。将代价函数作图，如下图。
在这里插入图片描述

3 Generative与Discriminative的对比

上篇中的高斯分布概率模型分类方法为Generative，本文中的Logistics Regression分类方法为Discriminative（判别式分类），对同一个问题进行分类时，两者的Function Set是相同的，但是找出的 $w, b$ 却不相同。通常，判别式分类可以得到更好结果。

4 展望

本文介绍了作为神经网络基本单位的Logistics Regression，接下来将通过其与Generative的具体差异的对比，更深入理解Logistics Regression，进而利用它解决多分类问题，再发现其局限性并进行优化。

-Emmie

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
李宏毅机器学习课程梳理【四】：Logistics Regression

Step1：Function Set上篇采用高斯分布，计算很多个参数才做出分类。本篇分析上篇中Generative model的表达式，数学推导出P(C1∣x)=σ(w⋅x+b)P(C_1|x)=\sigma(w \cdot x + b)P(C1∣x)=σ(w⋅x+b)，那么最终目标就变成计算出vector w和constant b模型采用fw,b(x)=Pw,b(C1∣x)f_{w,b}(x)=P_{w,b}(C_1|x )fw,b(x)=Pw,b(C1∣x)，其值介于0到1之间，记作σ(z)
复制链接

扫一扫