维基给出的解释,softmax函数,也称指数归一化函数,它是一种logistic函数的归一化,可以将
维实数向量压缩成范围(0~1)的
维实数向量函数形式为
其中分母指归一化的作用,取指数的原因,第一是模拟max的行为,即使得大的数值更大,第二是,方便运算求导
在概率论中,softmax函数输出与logistic函数有着密切的联系
对于两类的softmax函数可以转化为logistic函数的形式
最显著的区别logistic回归是针对二分类问题,softmax是针对多分类问题,logistic可以看作是softmax的特例
二分类器要最大化数据集的似然值等价于将每个数据点输出推向正无穷(正类)和负无穷(负类)
损失函数为
对于给定的测试输入
,假设用一个函数针对每个类别
估算概率值
即估计
的每一种分类结果出现的概率。因此要输出一个
维向量(向量的元素和为1)来表示
个估计的概率值。假设
的形式如下
其中
是模型的参数
其代价函数可以写为
softmax使用的代价函数为交叉熵,这里用了指示函数,求导的话,可以定义ont-hot向量
用
表示
样本的标签,可将上式改写
使用损失函数可以描述真实分布于估计分布的交叉熵。交叉熵可以看作熵与相对熵之和
这里的相对熵也叫做KL距离,在信息论中
表示用概率分布
来拟合真实分布
时,产生的信息损耗。其中
表示真实分布,
表示拟合分布,又因为真实值的熵是不变,所以交叉熵用以描述预测结果与真实结果的相似性,用来作损失函数可以保证预测值符合真实值。
引用学习:
CSDN-专业IT技术社区-登录blog.csdn.net