交叉熵(Cross Entropy)是Shannon信息论中一个重要概念,主要用于度量两个概率分布间的差异性信息。
https://www.baidu.com/baidu?tn=68018901_12_oem_dg&ie=utf-8&word=交叉熵
MSE与sigmoid函数不适合配合使用;
disciminative model: logistic model
genderative model:
naive bayes,假设样本是独立independent的,不考虑不同demension间的correlation,因为data sample不够多;
generative model,做了假设,假设data来自某一机率模型;
data少的时候,generative model赢过discriminative model
把formulation里面拆出priors和class-dependent probabilities,可以来源不同
discriminative mpdel, 没有做假设,performance受到data影响
softmax对最大的值做强化,
算softmax可以用 exponention, 大小值之间拉的更开,
也可以用gussian,从generative model的角度,如果3个guassion的class都是同一个distribution,共用同一个corvenrence matrix,
minimum cross entropy,需要做假设,此时等价于maximum likelihood
(maximum likelihood如果完全不知道假设,或者知道所有的假设都相同;即如果知道p(h(xi))均匀分布(均匀分布是最大熵分布,已知均值的指数分布是最大熵分布,已知均值方差的正态分布是最大熵分布)
logistics regression等价于求maximum entropy
最小化交叉熵的过程实际上就是已知分布A,最小化分布B的不确定性的过程,也就是让两个分布尽量一致的过程。
最大熵模型的形式假设满足了最大熵原理的后半部分,对于最大熵模型的训练过程就是拟合参数使得最大熵模型满足已知条件限制的过程。
minimum cross entropy和maximum entropy的区别
对数线性模型 Log-linear model
视频:
https://www.bilibili.com/video/BV1Ht411g7Ef?p=11
两种计算loss,比较error的方法:
Mean Squared Error、Cross Entropy
MSE与sigmoid函数不适合配合使用;
Cross Entropy与sigmoid函数(binary classification)配合使用;
Cross Entropy与softmax函数(Multi-class classification)配合使用;
!!!
交叉熵损失函数(Cross Entropy Error Function)与均方差损失函数(Mean Squared Error)
softmax函数(Multi-class classification)的二元分类=sigmoid函数(binary classification)
maximum entropy,和logistics regression一模一样;
Soft-max处理=normolization归一化+最大值最小值之间差异变大;
对于discriminative model,不需要假设分布,那么对于cross entropy,也不需要假设分布,但是对于minimum cross entropy,是generative model,假设了,比如说Bernoulli distribution(logistics regression,maximum likelihood)、Gaussian distribution(linear regression),都可以看作maximum likelihood,它们有相同的function表现形式;
Bernoulli distribution仍为计算probability概率,当logistics regression,maximum likelihood,使用sigmoid计算cross entropy,计算loss,直接更新w和b的时候,可以看作discriminative model;
【逻辑回归Logistic Regression(2)Maximum Likelihood-哔哩哔哩】
交叉熵损失函数(Cross Entropy Error Function)与均方差损失函数(Mean Squared Error)