背景介绍
比如,当已知y的区间为[0, 1] 时,线性回归就保证不了预测值属于这个区间。
![0aba7bd120cfe07d575adf39022cc0b1.png](https://img-blog.csdnimg.cn/img_convert/0aba7bd120cfe07d575adf39022cc0b1.png)
Selva Prabhakaran blog
逻辑回归
Logistic Regression:二分类线性分类器。
![9b42542b50b8aaded56db19fea008551.png](https://img-blog.csdnimg.cn/img_convert/9b42542b50b8aaded56db19fea008551.png)
NG cs229
逻辑回归属于线性分类器?
逻辑回归是个二分类器(binary classification)。虽说逻辑函数是"S"形曲线,但其分类边界还是一条直线,所以归为线性分类器。
由于S形曲线,输入很大或很小时,输出并不敏感,能有效处理一些异常数据。
![c57ca4d31b37b66ee44600331ec134dc.png](https://img-blog.csdnimg.cn/img_convert/c57ca4d31b37b66ee44600331ec134dc.png)
神经网络
逻辑回归可以看作没有隐藏层的多层感知机(MLP):
![ffeddc1b88b46fb2ff4847900c607ca7.png](https://img-blog.csdnimg.cn/img_convert/ffeddc1b88b46fb2ff4847900c607ca7.png)
其深度学习实现如下:
![412dab9ca91cd597c2be14b6d46c0a16.png](https://img-blog.csdnimg.cn/img_convert/412dab9ca91cd597c2be14b6d46c0a16.png)
PaddlePaddle
交叉熵与KL散度
逻辑回归最大化log似然,等价于最小化交叉熵。
![e29a36b179ba86df24ca0d62d4718017.png](https://img-blog.csdnimg.cn/img_convert/e29a36b179ba86df24ca0d62d4718017.png)
KL散度用于衡量两个分布距离,当两个分布相同时,KL散度为0。
如下定义可知,KL散度是两个分布的相对熵,即两分布的交叉熵与真实分布熵的差,而真实分布P的熵是固定不变的,所以二者是一致的。
![9514b99bc374a829c34a421ba275db9a.png](https://img-blog.csdnimg.cn/img_convert/9514b99bc374a829c34a421ba275db9a.png)
koller pgm
激活函数
在深度神经网络中,sigmoid是常见的激活函数,主要让映射关系变得非线性,增加网络近似能力。
![e2e0c4c1fa715de0f2ab43ab7ba7bb8f.png](https://img-blog.csdnimg.cn/img_convert/e2e0c4c1fa715de0f2ab43ab7ba7bb8f.png)
如果MLP中使用的都是sigmoid激活函数,整个神经网络可以看作是逻辑回归的多层递归。
由于sigmoid激活函数在x很大或很小时,out的值基本不变,进入饱和区,此时梯度很小趋于0,这样在反向传播梯度学习时,学习会变得很慢。
自然逻辑
0、1逻辑,中间接近线性、过大过小趋于稳定,直觉上,这是很自然的一种平滑。
这种看似简易的非线性,经过多层递归,却能表达任意函数。