机器学习学习记录（二）

最新推荐文章于 2024-07-25 18:25:30 发布

Mingming_Buaa

最新推荐文章于 2024-07-25 18:25:30 发布

阅读量280

点赞数

分类专栏：技术类--大学本科文章标签：机器学习

本文链接：https://blog.csdn.net/Mingming_Buaa/article/details/78845963

版权

技术类--大学本科专栏收录该内容

3 篇文章 1 订阅

订阅专栏

本篇博客将接着《机器学习学习记录》继续阐述机器学习的相关知识

2.Logistic Regression

在上一篇博客中，我们了解了机器学习里最简单的模型Linear Regression，这个模型用于回归问题，而当我们需要处理一个分类问题的时候，想一想线性回归的模型还能不能用？

请看下面的两张图

图1
这里写图片描述

图2
这里写图片描述
对于图1的情况来说，如果对该组数据做Regression理论上是可以得到一个比较好的结果。图1中绿色直线可以比较好地将两类数据分开。而对于图2来说，就很难通过Regression来确定一条直线将两类数据分开。所以我们需要一种方法来处理这种分类问题。
下面介绍两种方法：

- 01.Generative：
在引出这种方法之前，我们先来回顾一下要用到的数学知识——贝叶斯公式：

P (A i | B) = P ( B | A i ) P ( A i ) \sum n i = 1 P ( B | A i ) P ( A i )

$P(A_i|B)=\frac {P(B|A_i)P(A_i)}{\sum_{i=1}^n P(B|A_i)P(A_i)}$
直白地讲就是，取出来一个

B $B$ ，

B $B$ 来自

Ai $A_i$ 的概率等于

Ai $A_i$ 的概率乘上

B $B$ 在

Ai $A_i$ 情况下的条件概率与取出来一个

B $B$ 的概率（所有

A $A$ 事件概率与

B $B$ 在

A $A$ 发生条件下能发生的概率积之和）之比

下面我们以分两类的情况阐述Generative方法：

前几天我又做了一次调研（又是假装做了），调研的内容是男生与女生的身高和体重。得到以下数据：
男生（ $C_1$ ）：

Height:x {175,176,177,178,179}
Weight:y {60,61,62,63,64}

女生（ $C_2$ ）：

Height:x {160,161,162,163,164,165}
Weight:y {55,56,57,58,59,60}

怎么能把女生编得这么胖！！！你管我呢？

现在，我想让机器告诉我身高180，体重65的到底是女生还是男生。

当只有两类的时候，贝叶斯公式可以这么写：

P (C 1 | x) = P ( x | C 1 ) P ( C 1 ) P ( x | C 1 ) P ( C 1 ) + P ( x | C 2 ) P ( C 2 )

$P(C_1|x)=\frac {P(x|C_1)P(C_1)}{P(x|C_1)P(C_1)+P(x|C_2)P(C_2)}$

P (x) = P (x | C 1) P (C 1) + P (x | C 2) P (C 2)

$P(x)={P(x|C_1)P(C_1)+P(x|C_2)P(C_2)}$
我们现在想衡量一下

P(x) $P(x)$ 的大小（就是有多大的概率能取出来一个样本里面的数据），根据我们的取样数据，

P(C1)=511 $P(C_1)=\frac{5}{11}$ ，

P(C2)=611 $P(C_2)=\frac{6}{11}$ ，那么为了得到

P(x) $P(x)$ 我们还缺两个东西

P(x|C1)、P(x|C2) $P(x|C_1)、P(x|C_2)$ 如果这两个知道了

P(C1|x) $P(C_1|x)$ 也就不难求了。
不知道你有没有发现，到这里我们已经做完了机器学习的第一个步骤，就是找到了一个Function Set，这个函数集合就是我们所说的贝叶斯公式。不仅如此，我们已经做了机器学习第二步骤的一小半，就是我们找到了一个可以衡量模型好坏的函数

P(x) $P(x)$ ，而我们要做的就是让机器找到一个最佳函数，使得我们抽样数据概率之积最大（我们假定每次抽样都是独立进行的），直白来说就是使我们得到这组抽样数据的概率最大。所以我们定义下面的函数：

L = \prod i = 1 n P (x i)

$L=\prod_{i=1}^nP(x_i)$ (注意：这里的

xi $x_i$ =

[HeightWeight] $\left[ \begin{matrix} Height\\ Weight\\ \end{matrix}\right]$ 是个矩阵)

那么怎么去衡量 $P(x_i)$ 呢？

我们假定人的身高体重服从高斯分布，高斯分布长这个样子：

f μ, Σ (x) = 1 ( 2 π ) D 2 1 | Σ | 1 / 2 e - 1 2 (x - μ) T Σ - 1 (x - μ)

$f_{\mu,\Sigma}(x)=\frac{1}{(2\pi)^\frac{D}{2}}\frac{1}{|\Sigma|^{1/2}}e^{-\frac{1}{2}(x-\mu)^{T}\Sigma^{-1}(x-\mu)}$
假设男生的身高体重服从

N(μ1,Σ21) $N(\mu_1,\Sigma_1^2)$ 的高斯分布，女生的服从

N(μ2,Σ22) $N(\mu_2,\Sigma_2^2)$ （这里的上标表示幂次）
于是这组数据的概率就可以用下面的式子来衡量：

L (μ 1, Σ 1, μ 2, Σ 2) = f μ 1, Σ 1 (x 1) \cdot f μ 1, Σ 1 (x 2) \cdot \dots \cdot f μ 2, Σ 2 (x n)

$L(\mu_1,\Sigma_1,\mu_2,\Sigma_2)=f_{\mu_1,\Sigma_1}(x_1)\cdot f_{\mu_1,\Sigma_1}(x_2)\cdot\cdots\cdot f_{\mu_2,\Sigma_2}(x_n)$
我们可以用最大似然估计来得到上面的式子最大值点。

μ∗1=1N1∑N1i=1xi $\mu_1^*=\frac{1}{N_1}\sum_{i=1}^{N_1}x_i$ （男生数据）

μ∗2=1N2∑N2i=1xi $\mu_2^*=\frac{1}{N_2}\sum_{i=1}^{N_2}x_i$ （女生数据）

Σ∗1=1N1∑N1i=1(xi−μ1)(xi−μ1)T $\Sigma_1^*=\frac{1}{N_1}\sum_{i=1}^{N_1}(x_i-\mu_1)(x_i-\mu_1)^T$ (男生数据)

Σ∗2=1N2∑N2i=1(xi−μ2)(xi−μ2)T $\Sigma_2^*=\frac{1}{N_2}\sum_{i=1}^{N_2}(x_i-\mu_2)(x_i-\mu_2)^T$ （女生数据）
但是我们发现，这种方法参数有点多，但转念一想，女生的身高体重分布好像跟男生也没差多少，于是我们令

Σ1=Σ2=Σ $\Sigma_1=\Sigma_2=\Sigma$
其中

Σ=N1N1+N2Σ1+N2N1+N2Σ2 $\Sigma=\frac{N_1}{N_1+N_2}\Sigma_1+\frac{N_2}{N_1+N_2}\Sigma_2$ ，于是

L (μ 1, μ 2, Σ) = f μ 1, Σ (x 1) \cdot f μ 1, Σ (x 2) \cdot \dots \cdot f μ 2, Σ (x n)

$L(\mu_1,\mu_2,\Sigma)=f_{\mu_1,\Sigma}(x_1)\cdot f_{\mu_1,\Sigma}(x_2)\cdot\cdots\cdot f_{\mu_2,\Sigma}(x_n)$
从而：

P (C 1 | x) = P ( x | C 1 ) P ( C 1 ) P ( x | C 1 ) P ( C 1 ) + P ( x | C 2 ) P ( C 2 ) = f μ 1 , Σ ( x ) P ( C 1 ) f μ 1 , Σ ( x ) P ( C 1 ) + f μ 2 , Σ ( x ) P ( C 2 )

$\begin{matrix} P(C_1|x)=\frac {P(x|C_1)P(C_1)}{P(x|C_1)P(C_1)+P(x|C_2)P(C_2)} \\ =\frac{f_{\mu_1,\Sigma}(x)P(C_1)}{f_{\mu_1,\Sigma}(x)P(C_1)+f_{\mu_2,\Sigma}(x)P(C_2)}\\ \end{matrix}$

求出 $\mu_1$ , $\mu_2$ , $\Sigma$ 之后带入上式求出 $P(C_1|x)$ ,如果Output>0.5，则所测试的数据是男生的，相反则是女生的。

- 2.Logistic Regression

终于我们将进入Logistic Regression的探讨

上面我们提到对于两类的分类问题，我们的Function Set选择如下：

P (C 1 | x) = P ( x | C 1 ) P ( C 1 ) P ( x | C 1 ) P ( C 1 ) + P ( x | C 2 ) P ( C 2 )

$P(C_1|x)=\frac {P(x|C_1)P(C_1)}{P(x|C_1)P(C_1)+P(x|C_2)P(C_2)}$
在上式情况下我们做如下恒等变形：

P (C 1 | x) = 1 1 + P ( x | C 2 ) P ( C 2 ) P ( x | C 1 ) P ( C 1 )

$P(C_1|x)=\frac {1}{1+\frac{P(x|C_2)P(C_2)}{P(x|C_1)P(C_1)}}$
令

lnP(x|C1)P(C1)P(x|C2)P(C2)=z $ln\frac{P(x|C_1)P(C_1)}{P(x|C_2)P(C_2)}=z$
上式可以写作：

P (C 1 | x) = 1 1 + e - z = σ (z)

$P(C_1|x)=\frac {1}{1+e^{-z}}=\sigma(z)$
其中

σ(z)=11+e−z $\sigma(z)=\frac {1}{1+e^{-z}}$ 称为Sigmoid函数，这是我们将来要说的激活函数中的一种。
下面我们深入去讨论一下这个函数

图片引用自李宏毅（台湾大学）《机器学习》

从上面的推导过程我们可以看出来其实这里的 $z$ 可以写成以下形式：

z = w x + b

$z=wx+b$
（注意：这里的

w、x $w、x$ 应该是向量，但

z,b $z,b$ 都是数值）

于是，

P (C 1 | x) = σ (w x + b)

$P(C_1|x)=\sigma(wx+b)$
于是这里的函数就可以表示成如下形式：

到这里，我们又做完了机器学习的第一步，我们已经找到了一个函数集合。下面，就是寻找一种方法，使得机器可以按照这种方法找到一个最佳的函数。我们采用的方法是这样的：
还是采用我们在讨论Generative方法时所假象的男女身高体重数据，将男生数据 $x_1,x_2,\cdots ,x_5$ 划归为 $C_1$ ，女生数据 $x_6,x_7,\cdots,x_{11}$ 划归到 $C_2$ ,于是我们的函数便写成如下形式：

L (w, b) = f w, b (x 1) f w, b (x 2) \dots f w, b (x 5) [1 - f w, b (x 6)] [1 - f w, b (x 7)] \dots [1 - f w, b (x 11)]

$L(w,b)=f_{w,b}(x_1)f_{w,b}(x_2)\cdots f_{w,b}(x_5)[1-f_{w,b}(x_6)][1-f_{w,b}(x_7)]\cdots [1-f_{w,b}(x_{11})]$
我们所要求的就是一堆参数

w,b $w,b$ 使得

L(w,b) $L(w,b)$ 取得最大值。为了求得这一参数，我们做如下等价变形：

- l n L (w, b) = - l n f (x 1) - (1 - 1) l n (1 - f (x 1)) - \dots - 0 \times l n f (x 6) - (1 - 0) (1 - l n f (x 6) \dots)

$-lnL(w,b)=-lnf(x_1)-(1-1)ln(1-f(x_1))-\cdots -0\times lnf(x_6)-(1-0)(1-lnf(x_6)\cdots)$
我们设定目标值

y^i={1 xi∈C10 xi∈C2

$\hat y_i= \left\{ \begin{array}\\ 1 \space x_i\in C_1\\ 0 \space x_i\in C_2\\ \end{array} \right.$
于是上面的式子就可以写成如下形式：

−lnL(w,b)=−∑i=1n{y^ilnfw,b(xi)+(1−y^i)ln[1−fw,b(xi)]}

$-lnL(w,b)=-\sum_{i=1}^n \{\hat y_ilnf_{w,b}(x_i)+(1-\hat y_i)ln[1-f_{w,b}(x_i)]\}$
这个式子其实是两个伯努利分布的交叉熵,那么如何去求解这个交叉熵的最小值呢?当然是用Gradient Descent的方法啦。求出

∂lnL∂wi,∂lnL∂bi $\frac{\partial lnL}{\partial w_i},\frac{\partial lnL}{\partial b_i}$ 然后继续更新参数。
上面所说的Logistic Regression都是针对两种类别的情况，那如果是多种类别怎么办呢？
看下面两张图，这里不展开聊了

到这里Logistic Regression我们就已经介绍完了。当然，这种方法也有自己的局限性。当数据的分布不那么规整的时候，一条直线就很难将两组数据分开，所以有的时候需要坐标变换，在变换之后才能找到一条直线将两类数据分开。之后我们聊到Deep Learning的时候会通过另外一种方法来避开坐标变换。

Mingming_Buaa

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
机器学习学习记录（二）

本篇博客将接着《机器学习学习记录》继续阐述机器学习的相关知识2.Logistic Regression在上一篇博客中，我们了解了机器学习里最简单的模型Linear Regression，这个模型用于回归问题，而当我们需要处理一个分类问题的时候，想一想线性回归的模型还能不能用？请看下面的两张图图1 图2 对于图1的情况来说，如果对该组数据做Regression理论上是可以得到一个比较好的结果
复制链接

扫一扫