softmax 回归原理及python实现

最新推荐文章于 2024-07-31 15:02:43 发布

howardact

最新推荐文章于 2024-07-31 15:02:43 发布

阅读量4.5k

点赞数 8

分类专栏： machineLearning

本文链接：https://blog.csdn.net/howardact/article/details/54581901

版权

machineLearning 专栏收录该内容

22 篇文章 0 订阅

订阅专栏

softmax回归python实现程序

1、Logistic回归：

1.1、逻辑回归数据集

[(x (1), y (1)), (x (2), y (2)), . . ., (x (m), y (m))]

$\left [(x^{(1)},y^{(1)}),(x^{(2)},y^{(2)}),...,(x^{(m)},y^{(m)})\right]$

y \in {0, 1}

$y \in \{0,1\}$

1.2、样本发生的概率，即y取1的概率：

h θ (x) = 1 1 + e x p ( - θ \cdot x )

$h_{\theta}(x)=\frac{1}{1+ exp(-\theta\cdot x)}$

1.3、整个样本的似然函数为：

似然函数
$L = \prod h θ (x (i)) y (i) (1 - h θ (x (i))) 1 - y (i)$ $L=\prod h_{\theta}(x^{(i)})^{y^{(i)}}\left(1-h_{\theta}(x^{(i)})\right)^{1-y^{(i)}}$
对数似然函数为：
$l o g L = \sum i = 1 m (y (i) l o g (h θ (x (i)) + (1 - y (i)) l o g (1 - h θ (x (i))))$ $logL=\sum_{i=1}^{m} \left(y^{(i)}log(h_{\theta}(x^{(i)}) +(1-y^{(i)})log(1-h_{\theta}(x^{(i)}))\right)$

1.4、代价函数，及代价函数偏导：

代价函数
$J (θ) = - 1 m \sum i = 1 m (y (i) l o g (h θ (x (i)) + (1 - y (i)) l o g (1 - h θ (x (i))))$ $J(\theta) = -\frac{1}{m}\sum_{i=1}^{m} \left(y^{(i)}log(h_{\theta}(x^{(i)}) +(1-y^{(i)})log(1-h_{\theta}(x^{(i)}))\right)$
代价函数的偏导数：
$\partial J ( θ ) \partial θ j = - 1 m (\sum i = 1 m (y (i) - h θ (x (i))) x (i))$ $\frac{\partial J(\theta)}{\partial \theta_j}=-\frac{1}{m}\left(\sum_{i=1}^{m}\left(y^{(i)}-h_{\theta}(x^{(i)})\right)x^{(i)}\right)$

1.5、梯度下降更新参数：

θ j : = : = θ j - α \partial J ( θ ) \partial θ j θ j + α m (\sum i = 1 m (y (i) - h θ (x (i))) x (i) j) (1) (2)

$\begin{eqnarray} \theta_j &:=& \theta_j - \alpha \frac{\partial J(\theta)}{\partial \theta_j} \\ &:=& \theta_j + \frac{\alpha}{m}\left(\sum_{i=1}^{m}\left(y^{(i)}-h_{\theta}(x^{(i)})\right)x_j^{(i)}\right) \end{eqnarray}$

1.6、对参数L2正则化

$对于逻辑回归，L2正则化之后，损失函数为$ ：
$J (θ) = - 1 m (\sum i = 1 m (y (i) l o g (h θ (x (i))) + (1 - y (i)) l o g (1 - h θ (x (i)))) + λ 2 m \sum j = 1 n θ 2$ $J(\theta)=-\frac{1}{m}\left(\sum_{i=1}^{m}(y^{(i)}log(h_{\theta }(x^{(i)}))+(1-y^{(i)})log(1-h_{\theta }(x^{(i)}))\right) + \frac{\lambda}{2m}\sum_{j=1}^{n}\theta^{2}$
$\theta迭代更新公式为$
$θ j : = θ j + α m (\sum i = 1 m (y (i) - h θ (x (i)) x (i) j) - α λ m θ j (j = 1, . . ., n)$ $\theta_{j}:= \theta_{j}+\frac{\alpha}{m}\left(\sum_{i=1}^{m}(y^{(i)}-h_{\theta}(x^{(i)})x^{(i)}_{j}\right ) - \alpha \frac{\lambda}{m}\theta_{j}(j=1,...,n)$

$\theta_j 为每列x对应的参数，为一个数$

2、softmax回归：

2.1、softmax回归数据集

[(x (1), y (1)), (x (2), y (2)), . . ., (x (m), y (m))] y \in {0, 1, . . ., k} (3) (4)

$\begin{eqnarray} &\left [(x^{(1)},y^{(1)}),(x^{(2)},y^{(2)}),...,(x^{(m)},y^{(m)})\right] \\&y \in \{0,1,...,k\} \end{eqnarray}$

$x^{(m)}表示x的一行数据，可能包含多列，是一个向量$

2.2、softmax概率函数

h θ (x (i)) = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ p (y (1) = 1 | x (i); θ) p (y (1) = 2 | x (i); θ) ⋮ p (y (1) = k | x (i); θ) ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ = 1 \sum k j = 1 e x p ( θ T j x ( i ) ) ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ e x p (θ T 1 x (i)) e x p (θ T 2 x (i)) ⋮ e x p (θ T k x (i)) ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥

$h_{\theta}(x^{(i)})=\begin{bmatrix} p(y^{(1)}=1|x^{(i)};\theta) \\ p(y^{(1)}=2|x^{(i)};\theta) \\ \vdots \\ p(y^{(1)}=k|x^{(i)};\theta) \end{bmatrix}=\frac{1}{\sum_{j=1}^{k}exp(\theta_{j}^T x^{(i)})} \begin{bmatrix} exp(\theta_1^Tx^{(i)}) \\ exp(\theta_2^Tx^{(i)}) \\ \vdots \\ exp(\theta_k^Tx^{(i)}) \end{bmatrix}$

p 1 l = e x p ( θ T l x ( 1 ) ) \sum k j = 1 e x p ( θ T j x ( 1 ) ), l = 1, 2, \dots, k

$p_{1l}=\frac{exp(\theta_l^Tx^{(1)})}{\sum_{j=1}^{k}exp(\theta_{j}^T x^{(1)})},l=1,2,\cdots ,k$

P = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ p 11 p 21 ⋮ p m 1 p 12 p 22 ⋮ p m 2 \dots \dots ⋮ \dots p 1 k p 2 k ⋮ p m k ⎤ ⎦ ⎥ ⎥ ⎥ ⎥

$P=\begin{bmatrix} p_{11} & p_{12} & \cdots &p_{1k} \\p_{21} & p_{22} & \cdots &p_{2k} \\ \vdots & \vdots & \vdots & \vdots \\p_{m1} & p_{m2} & \cdots &p_{mk} \end{bmatrix}$

$\theta为一个 k \times (n+1)的矩阵$

$θ = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ θ T 1 θ T 2 ⋮ θ T k ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥$ $\theta=\begin{bmatrix}\theta_1^T\\\theta_2^T \\ \vdots \\ \theta_k^T\end{bmatrix}$

2.3、softmax回归的损失函数为：

J (θ) = - 1 m [\sum i = 1 m \sum j = 1 k 1 {y (i) = j} l o g e x p ( θ T j x ( i ) ) \sum k l = 1 e x p ( θ T l x ( i ) )]

$J(\theta)= -\frac{1}{m}\left[\sum_{i=1}^{m}\sum_{j=1}^{k}1\{y^{(i)}=j\}log\frac{exp(\theta_{j}^Tx^{(i)})}{\sum_{l=1}^{k}exp(\theta_l^Tx^{(i)})}\right]$

损失函数的矩阵形式为：
$J θ = - 1 m s u m (Y ⊙ l o g P)$ $J_{\theta}=-\frac{1}{m}sum(Y\odot \ logP)$
对Y相应的解释
$y = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ 1100 k ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥$ $y=\begin{bmatrix} 1\\ 1\\ 0\\0\\k \end{bmatrix}$
对应Y为
$Y = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ 0011011000 \dots \dots \dots \dots \dots 00001 ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥$ $Y=\begin{bmatrix} 0 & 1 & \cdots & 0 \\ 0 & 1 & \cdots & 0 \\ 1& 0 & \cdots & 0 \\1 & 0 & \cdots &0 \\0 & 0& \cdots & 1 \end{bmatrix}$

y=k 则第k列数字对应1，其余列为0.

2.4、softmax回归损失函数的偏导为：

▽ θ j J (θ) = = = = - 1 m [\sum i = 1 m \sum j = 1 k 1 {y (i) = j} \sum k l = 1 e x p ( θ T l x ( i ) ) e x p ( θ T j x ( i ) ) (e x p ( θ T j x ( i ) ) \sum k l = 1 e x p ( θ T l x ( i ) ))'] - 1 m [\sum i = 1 m \sum k l = 1 e x p ( θ T l x ( i ) ) e x p ( θ T j x ( i ) ) 1 { y ( i ) = j } e x p ( θ T j x ( i ) ) \sum k l = 1 e x p ( θ T l x ( i ) ) - e x p ( θ T j x ( i ) ) e x p ( θ T j x ( i ) ) ( \sum k l = 1 e x p ( θ T l x ( i ) ) ) 2 x (i)] - 1 m [\sum i = 1 m (1 {y (i) = j} - e x p ( θ T j x ( i ) ) \sum k l = 1 e x p ( θ T l x ( i ) )) x (i)] - 1 m [\sum i = 1 m (1 {y (i) = j} - p (y (i) = j | x (i); θ)) x (i)] (5) (6) (7) (8)

$\begin{eqnarray} \bigtriangledown_{\theta_j}J(\theta)&=&-\frac{1}{m}\left[\sum_{i=1}^{m}\sum_{j=1}^{k}1\{y^{(i)}=j\} \frac{\sum_{l=1}^{k}exp(\theta_l^Tx^{(i)})}{exp(\theta_{j}^Tx^{(i)})} (\frac{exp(\theta_{j}^Tx^{(i)})}{\sum_{l=1}^{k}exp(\theta_l^Tx^{(i)})})^{'}\right] \\ &=&-\frac{1}{m}\left[\sum_{i=1}^{m}\frac{\sum_{l=1}^{k}exp(\theta_l^Tx^{(i)})}{exp(\theta_{j}^Tx^{(i)})} \frac{1\{y^{(i)}=j\} \ exp(\theta_{j}^Tx^{(i)})\ \sum_{l=1}^{k}exp(\theta_l^Tx^{(i)}) - exp(\theta_{j}^Tx^{(i)})\ exp(\theta_{j}^Tx^{(i)}) }{(\sum_{l=1}^{k}exp(\theta_l^Tx^{(i)}))^2} \ x^{(i)}\right] \\ &=&-\frac{1}{m}\left[ \sum_{i=1}^{m} \left(1\{y^{(i)}=j\}-\frac{exp(\theta_{j}^Tx^{(i)})}{\sum_{l=1}^{k}exp(\theta_l^Tx^{(i)})}\right)\ x^{(i)}\right] \\&=& -\frac{1}{m}\left[ \sum_{i=1}^{m} \left(1\{y^{(i)}=j\}-p(y^{(i)}=j|x^{(i)};\theta)\right)\ x^{(i)}\right] \end{eqnarray}$

矩阵形式为：
$▽ θ J (θ) = - 1 m (Y - P) T X$ $\bigtriangledown_{\theta}J(\theta)=-\frac{1}{m}(Y-P)^TX$

$(Y-P)维度为m \times k,X为m\times (n+1)$

2.5、对参数正则化处理

损失函数：
$J (θ) = - 1 m [\sum i = 1 m \sum j = 1 k 1 {y (i) = j} l o g e x p ( θ T j x ( i ) ) \sum k l = 1 e x p ( θ T l x ( i ) )] + λ 2 \sum j = 1 k \sum b = 0 n θ 2 j b$ $J(\theta)= -\frac{1}{m}\left[\sum_{i=1}^{m}\sum_{j=1}^{k}1\{y^{(i)}=j\}log\frac{exp(\theta_{j}^Tx^{(i)})} {\sum_{l=1}^{k}exp(\theta_l^Tx^{(i)})}\right]+\frac{\lambda}{2}\sum_{j=1}^{k}\sum_{b=0}^{n}\theta_{jb}^{2}$
损失函数关于 $\theta_j$ 的偏导为：

▽ θ j J (θ) = - 1 m [\sum i = 1 m (1 {y (i) = j} - p (y (i) = j | x (i); θ)) x (i)] + λ θ j

$\bigtriangledown_{\theta_j}J(\theta)= -\frac{1}{m}\left[ \sum_{i=1}^{m} \left(1\{y^{(i)}=j\}-p(y^{(i)}=j|x^{(i)};\theta)\right)\ x^{(i)}\right]+\lambda \ \theta_{j}$