【深度学习笔记】5 softmax回归

最新推荐文章于 2024-07-17 23:15:21 发布

NirReb

最新推荐文章于 2024-07-17 23:15:21 发布

阅读量623

点赞数

分类专栏：【深度学习笔记】文章标签：深度学习

本文链接：https://blog.csdn.net/YQ5089640/article/details/106645854

版权

【深度学习笔记】专栏收录该内容

8 篇文章 0 订阅

订阅专栏

文章目录

Softmax 回归数学表达

在这里插入图片描述
我们考虑单个样本 $x^{(i)}=(x^{(1)}_1,x^{(1)}_2,x^{(1)}_3,x^{(1)}_{4})$ ,我们有
$o^{(i)}_j=x^{(i)}_1*w_{1,j}+x^{(i)}_2*w_{2,j}+x^{(i)}_{3}*w^{(i)}_{3,j}+x^{(i)}_{4}*w^{(i)}_{4,j}+b_j,j=1,2,3$ 即
$\begin{aligned} \begin{bmatrix} o^{(i)}_1 & o^{(i)}_2 & o^{(i)}_3 \end{bmatrix}&= \begin{bmatrix} x^{(i)}_1*w_{1,1}+x^{(i)}_2*w_{2,1}+x^{(i)}_{3}*w_{3,1}+x^{(i)}_{4}*w_{4,1} +b_1& x^{(i)}_1*w_{1,2}+x^{(i)}_2*w_{2,2}+x^{(i)}_{3}*w_{3,2}+x^{(i)}_{4}*w_{4,2} +b_2& x^{(i)}_1*w_{1,3}+x^{(i)}_2*w_{2,3}+x^{(i)}_{3}*w_{3,3}+x^{(i)}_{4}*w_{4,3} +b_3 \end{bmatrix} \\ &= \begin{bmatrix} x^{(i)}_1 &x^{(i)}_2 & x^{(i)}_3 & x^{(i)}_4 \end{bmatrix} \begin{bmatrix} w_{1,1} & w_{1,2} & w_{1,3} \\ w_{2,1} & w_{2,2} & w_{2,3} \\ w_{3,1} & w_{3,2} & w_{3,3} \\ w_{4,1} & w_{4,2} & w_{4,3} \end{bmatrix}+\begin{bmatrix}b_1 & b_2 & b_3\end{bmatrix} \end{aligned}$ 若有n个样本则
$\begin{bmatrix} o^{(1)}_1 & o^{(1)}_2 & o^{(1)}_3 \\ o^{(2)}_1 & o^{(2)}_2 & o^{(2)}_3 \\ \vdots & \vdots & \vdots\\ o^{(n)}_1 & o^{(n}_2 & o^{(n)}_3 \end{bmatrix}=\begin{bmatrix} x^{(1)}_1 &x^{(1}_2 & x^{(1)}_3 & x^{(1)}_4 \\ x^{(2)}_1 &x^{(2)}_2 & x^{(2)}_3 & x^{(2)}_4 \\ \vdots & \vdots & \vdots& \vdots\\ x^{(n)}_1 &x^{(n)}_2 & x^{(n)}_3 & x^{(n)}_4 \end{bmatrix}\begin{bmatrix} w_{1,1} & w_{1,2} & w_{1,3} \\ w_{2,1} & w_{2,2} & w_{2,3} \\ w_{3,1} & w_{3,2} & w_{3,3} \\ w_{4,1} & w_{4,2} & w_{4,3} \end{bmatrix}+\begin{bmatrix} b_1 & b_2 & b_3 \\ b_1 & b_2 & b_3 \\ \vdots &\vdots & \vdots\\ b_1 & b_2 & b_3 \end{bmatrix}$

$O = X W + B$

其中 $\in R^{n×3}，X \in R^{n×4}，W \in R^{4×3}，b \in R^3(broadcast)$
$\in R^{n×q}，X \in R^{n×p}，W \in R^{p×q}，b \in R^3(broadcast)$

Softmax

$\hat{y}^{(i)}_1,\hat{y}^{(i)}_2,\hat{y}^{(i)}_3=softmax(o^{(i)}_1,o^{(i)}_2,o^{(i)}_3)$ 其中
$\begin{matrix} \hat{y}^{(i)}_1=\dfrac{exp(o^{(i)}_1)}{\sum^3_{j=1}exp(o^{(i)}_j)} & \hat{y}^{(i)}_2=\dfrac{exp(o^{(i)}_1)}{\sum^3_{j=1}exp(o^{(i)}_j)} & \hat{y}^{(i)}_3=\dfrac{exp(o^{(i)}_1)}{\sum^3_{j=1}exp(o^{(i)}_j)} & \end{matrix}$

$\hat{y}^{(i)}_1+\hat{y}^{(i)}_2+\hat{y}^{(i)}_3=1 \ and \ \hat{y}^{(i)}_1，\hat{y}^{(i)}_1，\hat{y}^{(i)}_1 \in [0,1]$
满足概率的条件，概率大的为预测出的的类别。
$O=XW+B,\hat{Y}=softmax(O)$ 其中：
$\in R^{n×q}，X \in R^{n×p}，W \in R^{p×q}，b \in R^q(broadcast)$
n 是batch 数，p 是特征数，q是类别数， $\hat{Y}^{(i)}$ 中第j列表示属于第j个类别的概率

交叉熵损失函数

one-hot 编码

对于第 $i$ 个样本
$(x^{(1)}_1,x^{(1)}_2,x^{(1)}_3,\dots,x^{(1)}_q,\color{red} y^{(i)})$
（实际中注意下角标从0开始）假设 $\color{red} y^{(i)}=3$ ,那么我们可以构建一个长度为q(类别数)的向量 $\vec{y}^{(i)}$ ，将其中第3个分量（第 $\color{red} y^{(i)}$ 个分量）设为1，其他分量设为 0
在这里插入图片描述

交叉熵

交叉熵（cross entropy）如下:
$H(\vec{y}^{(i)},\hat{y}^{(i)})=-\sum^n_{j=1}y^{(i)}_j log \hat{y}^{(i)}_j=-log\hat{y}^{(i)}_{\color{red}y^{(i)}}$

交叉熵表示什么？首先看KL散度（这个是非负数）
$\begin{aligned} D_{KL}(P(x),Q(x))&=\sum_jP(x_j)log\dfrac{P(x_j)}{Q(x_j)} \\ &=\sum_j P(x_j)logP(x_j)-\sum_jP(x)logQ(x_j) \\ &=-\underbrace{H(P(x))}_{\text{熵}}+\boxed{-\sum_jP(x)logQ(x_j)} \end{aligned}$

KL散度描述两个分布的相似程度，越小表示越接近，P(x) 一般表示我们数据集里样本的分布，他的熵是固定的，而Q(x)是我们模型产生的预测分布，我们自然希望与P(x)越接近越好。

n个样本的损失函数为：
$l(\Theta)=\dfrac 1 n \sum^n_{j=1}H(\vec{y}^{(i)},\hat{y}^{(i)})$
如果每个样本只有一个标签：
$l(\Theta)=- \dfrac 1 n \sum^n_{i=1}log\hat{y}^{(i)}_{\color{red}y^{(i)}}$
从另一个角度看，我们知道最小化 $l(\Theta)$ 等价于最大化

$exp(-nl(\Theta))= \textstyle \prod_{i=1}^n log\hat{y}^{(i)}_{\color{red}y^{(i)}}$
即最小化交叉熵损失函数等于最大化训练数据集所有标签类别的联合预测概率。

NirReb

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【深度学习笔记】5 softmax回归

文章目录Softmax 回归数学表达Softmax交叉熵损失函数one-hot 编码交叉熵Softmax 回归数学表达我们考虑单个样本 x(i)=(x1(1),x2(1),x3(1),x4(1))x^{(i)}=(x^{(1)}_1,x^{(1)}_2,x^{(1)}_3,x^{(1)}_{4})x(i)=(x1(1),x2(1),x3(1),x4(1)),我们有oj(i)=x1(i)∗w1,j+x2(i)∗w2,j+x3(i)∗w3,j(i)+x4(i)∗w4,j(i)+bj,j=1,2,
复制链接

扫一扫

专栏目录