近期学习内容

最新推荐文章于 2019-12-01 01:42:47 发布

guo_dasha

最新推荐文章于 2019-12-01 01:42:47 发布

阅读量178

点赞数

本文链接：https://blog.csdn.net/guo_dasha/article/details/80172476

版权

LR：它是一种二分类算法，取值只能为0或1 。

它的函数：

$h_\theta \left ( x \right )=\frac{1}{1+e^{-\theta ^Tx}}$

对应的损失函数：

$J\left ( \theta \right )=-\frac{1}{m}\left [ \sum_{i=1}^{m}y^{\left ( i \right )}log\; h_\theta\left ( x^{\left ( i \right )} \right )+\left ( 1-y^{\left ( i \right )} \right )log\; \left ( 1-h_\theta\left ( x^{\left ( i \right )} \right ) \right ) \right ]$

它会有俩个概率

softmax：它是LR的扩展，能进行多分类问题。他可以有多个值，但所有的结果加起来等于1。

$h_\theta \left ( x^{\left ( i \right )} \right )=\begin{pmatrix} P\left ( y^{\left ( i \right )}=1\mid x^{\left ( i \right )};\theta \right )\\ P\left ( y^{\left ( i \right )}=2\mid x^{\left ( i \right )};\theta \right )\\ \cdots \\ P\left ( y^{\left ( i \right )}=k\mid x^{\left ( i \right )};\theta \right ) \end{pmatrix}=\frac{1}{\sum_{j=1}^{k}e^{\theta _j^Tx^{\left ( i \right )}}}\begin{bmatrix} e^{\theta _1^Tx^{\left ( i \right )}}\\ e^{\theta _2^Tx^{\left ( i \right )}}\\ \cdots \\ e^{\theta _k^Tx^{\left ( i \right )}} \end{bmatrix}$

此时的损失函数：

$J\left ( \theta \right )=-\frac{1}{m}\left [ \sum_{i=1}^{m}\sum_{j=1}^{k}I\left \{ y^{\left ( i \right )}=j \right \}log\; \frac{e^{\theta _j^Tx^{\left ( i \right )}}}{\sum_{l=1}^{k}e^{\theta _l^Tx^{\left ( i \right )}}} \right ]$

神经网络：它分为输入层（Input layer），隐藏层（Hidden layer），输出层（Output layer）三个部分。

输入层是由训练集的实际特征向量传入。经过连接点的权重一层一层传入，上一层的输出是下一层的输入，经过隐藏层的处理，最后输出。

梯度爆炸：梯度爆炸是指机器学习时，选择的学习率设置不合理，导致梯度值过大引起。

梯度消失：为什么会出现梯度消失的现象呢？因为通常神经网络所用的激活函数是sigmoid函数，这个函数有个特点，就是能将负无穷到正无穷的数映射到0和1之间，并且对这个函数求导的结果是f（x）=f（x）（1-f（x））因此两个0到1之间的数相乘，得到的结果就会变得很小了。神经网络的反向传播是逐层对函数偏导相乘，因此当神经网络层数非常深的时候，最后一层产生的偏差就因为乘了很多的小于1的数而越来越小，最终就会变为0，从而导致层数比较浅的权重没有更新，这就是梯度消失。

正则化：

正则化的目的：防止过拟合！

正则化的本质：约束（限制）要优化的参数。

正则化看着名字挺复杂，其实说它是限制化也不错感觉。

池化：

最常见的池化操作为平均池化mean pooling和最大池化max pooling：

平均池化：计算图像区域的平均值作为该区域池化后的值。

最大池化：选图像区域的最大值作为该区域池化后的值。