这里不以李航的为准了,个人觉得西瓜书讲的更好一点。
1、逻辑回归
g ( z ) = 1 1 + e − z g(z)=\frac{1}{1+e^{-z}} g(z)=1+e−z1
2、交叉熵损失函数
- 交叉熵定义 https://blog.csdn.net/tsyccnh/article/details/79163834
- 交叉熵loss计算参考 https://blog.csdn.net/red_stone1/article/details/80735068
- 利用极大似然 得到
P ( y ∣ x ) = y ^ y ( 1 − y ^ ) 1 − y P(y|x)=\hat{y}^{y}(1-\hat{y})^{1-y} P(y∣x)=y^y(1−y^)1−y - 所以loss
L = − [ y l o g y ^ + ( 1 − y ) l o g ( 1 − y ^ ) ] L=-[ylog\hat{y}+(1-y)log(1-\hat{y})] L=−[ylogy^+(1−y)log(1−y^)]
3、为什么用logistic函数?
也是因为面试的时候被问到,才会想到去思考这个问题,感觉有点惭愧,今天总结一下。
- 首先,就是讲最后预测的值归一化到(0-1),最后求得是一个条件概率,这样也有利于学习和收敛。
- 其次,了解一些模式识别,感知机的同学应该知道,神经的触发性,到达某一个临界点就会触发,也就是左边的阶跃函数。sigmoid函数就是对阶跃函数的一个近似。
- 为什么这样近似呢?保证连贯性,我们不希望差0.01得出的结果就这么天差地别。保证可微,有利于数学求解。
这篇讲的也不错 https://blog.csdn.net/bitcarmanlee/article/details/51154481