李宏毅机器学习（5）

最新推荐文章于 2024-09-19 16:58:29 发布

Baigker

最新推荐文章于 2024-09-19 16:58:29 发布

阅读量102

点赞数

分类专栏：李宏毅机器学习课程笔记文章标签：机器学习深度学习

本文链接：https://blog.csdn.net/Baigker/article/details/118791176

版权

李宏毅机器学习课程笔记专栏收录该内容

29 篇文章 0 订阅

订阅专栏

本文深入探讨了逻辑回归的原理，包括函数设定、最大似然估计、梯度下降法以及参数优化。通过交叉熵损失函数来度量模型性能，并对比了判别式与生成式模型的差异。此外，还介绍了如何通过特征转换解决线性边界限制，并提及了多类别分类的处理方法。

摘要由CSDN通过智能技术生成

Logistic Regression

步骤

Step 1:Function Set:

$f_{w,b}(x)=P_{w,b}(C_1|x)$ including all different $w$ and $b$
$f_{w,b}(x)=σ(\sum_{i}w_i·x_i+b)$ Output:0~1

Step 2:Goodness of a Function

$L(w,b)=f_{w,b}(x_1)f_{w,b}(x_2)(1-f_{w,b}(x_3))…f_{w,b}(x_n)$
要求 $w^*$ 和 $b^*$ 使 $L (w, b)$ 最大。
$w^*,b^*=arg\ max_{w,b}L(w,b)=arg\ min_{w,b}-lnL(w,b)$
这种方法类似于最大似然估计。
在这里插入图片描述
所以：

最后得出 $-lnL(b,w)=\sum_{n}{-[\widehat{y}_nlnf_{w,b}(x_n)+(1-\widehat{y}_n)ln(1-f_{w,b}(x_n))]}$
$\widehat{y}_nlnf_{w,b}(x_n)+(1-\widehat{y}_n)ln(1-f_{w,b}(x_n))$ 叫做交叉熵（ $Cross\ entropy$ ）,可以衡量两个分布的接近程度。在上例中是在衡量两个伯努利分布的接近程度。

$Distribution\ p:$ ---------------------------------------- $Distribution\ q:$
$p(x=1)=\widehat{y}_n$ ------------------------------------------- $q(x=1)=f(x_n)$
$p(x=0)=1-\widehat{y}_n$ ------------------------------------- $q(x=0)=1-f(x_n)$
$cross\ entropy:H(p,q)=-\sum_{x}{p(x)ln(q(x))}$

Training data: $(x_n,\widehat{y}_n)$
$\widehat{y}^n$ :1 for class 1,0 for class 2
$L(f)=\sum_{n}{C(f(x_n),\widehat{y}_n)}$
$Cross\ entropy:C(f(x_n),\widehat{y}_n)=-[\widehat{y}_nlnf(x_n)+(1-\widehat{y}_n)ln(1-f(x_n))]$

Step 3:Find the best function

$f_{w,b}(x)=σ(z)=\frac{1}{1+exp(-z)},z=w·x+b=\sum_{i}{w_i·x_i+b}$
$\frac{αlnf_{w,b}(x)}{αw_i}=\frac{αlnf_{w,b}(x)}{αz}\frac{αz}{αw_i}$

其中 $\frac{αlnσ(z)}{αz}=\frac{1}{σ(z)}\frac{ασ(z)}{αz}=\frac{1}{σ(z)}σ(z)(1-σ(z))=1-σ(z)$

$\frac{αln(1-f_{w,b}(x))}{αw_i}=\frac{αln(1-f_{w,b}(x))}{αz}\frac{αz}{αw_i}$
所以， $\frac{-lnL(w,b)}{αw_i}=\sum_{n}{-[\widehat{y}_n(1-f_{w,b}(x_n)x_{n,i})-(1-\widehat{y}_n)f_{w,b}(x_n)x_{n,i}]}=\sum_{n}{-(\widehat{y}_n-f_{w,b}(x_n))x_{n,i}}$
$w_i\leftarrow w_i-η\sum_n{-(\widehat{y}_n-f_{w,b}(x_n))x_{n,i}}$
有趣的是，linear regression也是： $w_i\leftarrow w_i-η\sum_n{-(\widehat{y}_n-f_{w,b}(x_n))x_{n,i}}$
在这里插入图片描述

为什么不用Square Error？

因为在距离很远和很近是， $\frac{αL}{αw_i}$ 都为0，区分不了，而且迭代的速度会很慢。

Discriminative vs. Generative

相同：

模型都是 $P(C_1|x)=σ(w·x+b)$

不同：

discriminative：直接找w和b
Generative：先找 $μ_1,μ_2,Σ$ ，则 $w^T=(μ_1-μ_2)^TΣ^{-1}$ ， $b=-\frac{1}{2}(μ_1)^T(Σ_1)^{-1}μ_1+\frac{1}{2}(μ_2)^T(Σ_1)^{-1}μ_2+ln\frac{N_1}{N_2}$

然而用两种方法得到的 $w$ 和 $b$ 会不一样，因为做了不同的假设。
一般是discriminative model更好，因为generative会自己脑补，用的是Naive Byes。
但如果training data很少，generative更好。
在这里插入图片描述

Multi-class Classification(3 classes as example)

刚才的例子都是二元分类的，但如果是多元分类做法会有所不同。
在这里插入图片描述

其中， $\widehat{y}_n$ 是target值。
logistic regression的限制：分界线只是一条直线，这就会导致有的情况无法处理，如下图：

解决方案（Feature transformation）：改变Feature Space，如： $\left[ \begin{matrix}x_1 \\x_2 \\\end{matrix} \right]\rightarrow \left[ \begin{matrix}x_1^{'} \\x_2^{'} \\\end{matrix} \right]$
在这里插入图片描述
这只是一种简单的分类法，有时候要将多个model串联起来，前一个model的output作为后一个model的input，最终改变data的Feature。
从图中看出，每个model形同人脑细胞Neuron，所以这就是Neural Network Deep learning。