李沐深度学习-softmax文档

最新推荐文章于 2024-07-21 07:50:37 发布

大小猫吃猫饼干

最新推荐文章于 2024-07-21 07:50:37 发布

阅读量376

点赞数 9

分类专栏：李沐深度学习编码实现文章标签：深度学习人工智能

本文链接：https://blog.csdn.net/qq_43401942/article/details/135697399

版权

李沐深度学习编码实现专栏收录该内容

26 篇文章 0 订阅

订阅专栏

本文介绍了softmax回归在分类任务中的作用，如垃圾分类、图像识别等，强调了softmax函数如何将离散值转化为概率分布。同时讨论了softmax回归的输出结构和与线性回归的区别，以及交叉熵损失函数在评估模型性能时的优势和适用场景，特别指出不适用于多标签分类问题。

摘要由CSDN通过智能技术生成


分类问题输出的是一个离散值：垃圾分类，图像分类，邮件识别，疾病检测

softmax适用于分类问题

softmax回归的输出单元从一个变成多个

-----------------------------------------------------------------------------分类问题：

假设有4像素，3标签，4像素可以表示一个标签  y1=1，y2=2，y3=3   有12个权重和3个偏置   每个标签类别都有自己的表达式

softmax与线性回归的不同点：
    softmax的输出个数等于标签里的类别数（y1，y2，y3）
    输出：θ1,θ2，θ3

    θ1=x1w11+x2w21+x3w31+x4w41+b1
    θ2=x1w12+x2w22+x3w32+x4w42+b2
    θ3=x1w13+x2w23+x3w33+x4w43+b3


    权重和偏置不是统一设置，而是每个标签类别有自己的对应权重和偏置参数

    softmax将离散值转化为连续值，转化为符合概率分布的结果
    其过程就是在得到倒数第二层layer的离散结果后，使用归一化幂函数，将离散值转化为概率分布值
    y_hat1+y_hat2+y_hat3=1

----------------------------------------------------------------------单样本分类矢量计算表达式：

    为了提高计算效率，可以将单样本分类通过矢量计算来表达。
    假设w:4x3 b:1x3   一个样本，要对其进行计算，预测这个样本是属于标签中哪个类别，所以参数w有三种类别需要进行计算
                    所以权重是3列，每一列代表一种标签分类中应该参与计算预测的权重
                    4行代表的是要与样本的4个特征进行矢量计算

                    ！！！分类计算中，每个样本都要进行标签中类别数个预测，来判断该样本属于那种分类的概率大！！！！
    样本X：1x4

    oi=xi*W+b
    y^=softmax(oi)

-------------------------------------------------------------小批量样本分类的矢量计算表达式

批量大小：n
输入个数（特征数）：d
输出个数（类别数）：q    ai回答问的问题是不是也是进行回答分类？
批量特征为：X∈R(nxd)
权重参数：W∈R（dxq）
偏置参数：b∈（1xq）
O=XW+b   这里使用了广播机制
Y^=softmax(O)
O,Y^: nxq  输出是n个样本行，一个样本行有q个标签分类列

-------------------------------------------------------------交叉熵损失函数
softmax运算将输出转换成一个合法的类别预测概率
对于样本X(i),可以构造一个标签类别向量Y(i):1xq, 使Y（i）向量中第y（i）个元素为1，其他元素为0，这样就确定该样本是属于什么类别
然后对得到的预测概率分布y^向量，使其与Y向量进行比较，达到预测效果

不使用平方损失函数进行作差平方，因为预测不符合实际，例如y^1=0.2,y^2=0.2和y^1=0,y^2=0.4，他俩的比较效果是一样的，都是y^3
的预测概率最大，所以选择y3类别，但这种方式不好，不能衡量概率分布差异

交叉熵是常用的衡量方法：
    H(y^(i),Y(i))=-Σq,j=1 Yj(i)logy^j(i)
    Yj(i)是Y（i）向量中的独热向量值，非0即1
    y^j(i) 是预测概率向量中的概率值

    所以由上所知，由于表达式0乘得0，所以最终表达式等于H(y^(i),Y(i))=-logy^j(i): 第i个预测概率值
    这意味着，交叉熵只关心对正确类别的预测概率

当有n个样本时，交叉熵损失函数就是所有样本的正确类别的预测概率之和的平均值
模型参数：权重，偏置


分类问题中，一个样本就是一个样本的意思，但是一个标签不代表一个分类，一个标签可以有多个分类。
举例：一张图片是一个样本，一张图片只有一种动物，可以是猫，狗，猴子。则单个照片中的对象就是一个标签，这个标签有三种分类，
分别是猫，狗，猴子。
而如果一张图片中存在多个对象的时候，这个时候就说一个样本有多个标签若是一个图片中有两个标签，分别是动物，汽车。
而动物标签有猴子，猫，狗三种分类，汽车有雪佛兰，沃尔沃，上汽大众三个品牌，也是三种分类。
以上就是一个样本中单标签，多标签的区别，一个标签中多分类的问题解释

所以以上交叉熵损失函数，不适用于一个样本包含多标签的情况，只适用于一个样本只有一个标签，允许一个标签有多个分类

而交叉熵损失函数是负数，所以有最小化L等于最大化exp(-nL),L中包含分母n
即最小化交叉熵损失函数等价于最大化训练数据集所有标签的类别的联合预测概率（就是连乘所有样本标签中正确预测的那个概率值）

---------------------------------------------------------------模型和预测及评价
训练好softmax回归模型后，给行任意样本特征Xi，可以预测出每个类别的概率
通常把预测概率最大的类别作为输出类别，如果他与真实标签中的类别一致，则说明预测准确

准确率：用来评价模型的表现，= 正确预测数量与总预测数量之比


总结：
    softmax回归适用于分类问题，它使用softmax运算输出类别的概率分布
    doftmax回归是一个单层layer，输出个数等于分类问题中的类别个数
    交叉熵适合衡量两个概率分布的差异

如果用像素值【0-255】表示图片数据，那么一律讲话类型设置为uint8，避免不必要的结果产生