deep learning入门（一）

最新推荐文章于 2021-08-09 11:53:33 发布

hahajing369

最新推荐文章于 2021-08-09 11:53:33 发布

阅读量322

点赞数

分类专栏：深度学习

深度学习专栏收录该内容

9 篇文章 0 订阅

订阅专栏

回归问题也就是说预测值是连续的，如果我们需要预测的值只有2种，要么是要么不是，即预测值要么是0要么是1，那么就是分类问题了。这样我们需要有一个函数将原本的预测值映射到0到1之间，通常这个函数就是logistic function，或者叫做sigmoid function。因为这种函数值还是个连续的值，所以对logistic函数的解释就是在给定x的值下输出y值为1的概率。

参数的个数比训练样本的个数还要多时也是非可逆矩阵。这时候要求解的话就需要引入regularization项，或者去掉一些特征项（典型的就是降维，去掉那些相关性强的特征）。

梯度下降法是用来求函数值最小处的参数值，而牛顿法是用来求函数值为0处的参数值，这两者的目的初看是感觉有所不同，但是再仔细观察下牛顿法是求函数值为0时的情况，如果此时的函数是某个函数A的导数，则牛顿法也算是求函数A的最小值（当然也有可能是最大值）了，因此这两者方法目的还是具有相同性的。牛顿法的参数求解也可以用矢量的形式表示，表达式中有hession矩阵和一元导函数向量。

下面来比较梯度法和牛顿法，首先的不同之处在于梯度法中需要选择学习速率，而牛顿法不需要选择任何参数。第二个不同之处在于梯度法需要大量的迭代次数才能找到最小值，而牛顿法只需要少量的次数便可完成。但是梯度法中的每一次迭代的代价要小，其复杂度为O(n),而牛顿法的每一次迭代的代价要大，为O(n^3)。因此当特征的数量n比较小时适合选择牛顿法，当特征数n比较大时，最好选梯度法。这里的大小以n等于1000为界来计算。

如果当系统的输入特征有多个，而系统的训练样本比较少时，这样就很容易造成over-fitting的问题。这种情况下要么通过降维方法来减小特征的个数（也可以通过模型选择的方法），要么通过regularization的方法，通常情况下通过regularization方法在特征数很多的情况下是最有效，但是要求这些特征都只对最终的结果预测起少部分作用。因为规则项可以作用在参数上，让最终的参数很小，当所有参数都很小的情况下，这些假设就是简单假设，从而能够很好的解决over-fitting的问题。一般对参数进行regularization时，前面都有一个惩罚系数，这个系数称为regularization parameter，如果这个规则项系数太大的话，有可能导致系统所有的参数最终都很接近0，所有会出现欠拟合的现象。在多元线性回归中，规则项一般惩罚的是参数1到n（当然有的也可以将参数0加入惩罚项，但不常见）。随着训练样本的增加，这些规则项的作用在慢慢减小，因此学习到的系统的参数倾向而慢慢增加。规则项还有很多种形式，有的规则项不会包含特征的个数，如L2-norm regularization(或者叫做2-norm regularization).当然了，还有L1-norm regularization。由于规则项的形式有很多种，所以这种情形也称为规则项的common variations.