softmax函数_Softmax函数理解

softmax函数是多分类问题中的关键,它将实数向量转换为概率分布。与logistic回归(二分类)不同,softmax用于多分类,输出每个类别的概率。损失函数通常采用交叉熵,衡量预测概率与真实标签的匹配程度。交叉熵包括熵和相对熵(KL距离),用于评估预测效果。在训练模型时,优化目标是减小这个损失。
摘要由CSDN通过智能技术生成

维基给出的解释,softmax函数,也称指数归一化函数,它是一种logistic函数的归一化,可以将

维实数向量压缩成范围(0~1)的
维实数向量函数形式为

其中分母指归一化的作用,取指数的原因,第一是模拟max的行为,即使得大的数值更大,第二是,方便运算求导

7d1d7e8026b386b3965be63c33f4c215.png

在概率论中,softmax函数输出与logistic函数有着密切的联系

38aca9cbc92e10136448aa1769459e9f.png

ee4de09570033f28b2bffa1d346003ac.png

对于两类的softmax函数可以转化为logistic函数的形式

最显著的区别logistic回归是针对二分类问题,softmax是针对多分类问题,logistic可以看作是softmax的特例

二分类器要最大化数据集的似然值等价于将每个数据点输出推向正无穷(正类)和负无穷(负类)

损失函数为

对于给定的测试输入

,假设用一个函数针对每个类别
估算概率值
即估计
的每一种分类结果出现的概率。因此要输出一个
维向量(向量的元素和为1)来表示
个估计的概率值。假设
的形式如下

475cc3c6ac0cb5440cc5d45cf6b9efcc.png

其中

是模型的参数

其代价函数可以写为

softmax使用的代价函数为交叉熵,这里用了指示函数,求导的话,可以定义ont-hot向量

表示
样本的标签,可将上式改写

使用损失函数可以描述真实分布于估计分布的交叉熵。交叉熵可以看作熵与相对熵之和

这里的相对熵也叫做KL距离,在信息论中

表示用概率分布
来拟合真实分布
时,产生的信息损耗。其中
表示真实分布,
表示拟合分布,又因为真实值的熵是不变,所以交叉熵用以描述预测结果与真实结果的相似性,用来作损失函数可以保证预测值符合真实值。

引用学习:

CSDN-专业IT技术社区-登录​blog.csdn.net
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值