机器学习(13) 神经网络：简介

luyouqi11

已于 2023-08-04 09:43:26 修改

阅读量118

点赞数

文章标签：机器学习神经网络人工智能

于 2023-08-04 09:42:55 首次发布

本文链接：https://blog.csdn.net/luyouqi11/article/details/132096047

版权

神经网络实际上是一个相对古老的算法，并且沉寂了一段时间，不过到了现在它又成为许多机器学习问题的首选技术。

1 非线性假设(Non-linear Hypotheses)

之前我们已经介绍过线性回归和逻辑回归算法了，那为什么还要研究神经网络？

为了阐述研究神经网络算法的目的，我们首先来看几个机器学习问题作为例子。这几个问题的解决都依赖于复杂的非线性分类器。

1.1 输入特征过多带来的问题

有一个监督学习的例子，其训练集如图所示

其决策边界的曲线非常复杂。

当只有两项时比如和，这种方法确实能得到不错的结果，因为你可以把和的所有组合都包含到如下的多项式中，

但是对于许多复杂的机器学习问题而言，涉及的输入特征往往多于两项。

例如我们之前已经讨论过房价预测的问题，假设现在要处理的是关于住房的分类问题，而不是一个回归问题。

假设你对一栋房子的多方面特点都有所了解，你想预测房子在未来半年内能被卖出去的概率，这是一个分类问题。

我们可以想出很多特征，对于不同的房子有可能就有上百个特征，对于这类问题如果要包含所有的二次项，即使只包含二项式或多项式的计算，最终的多项式也可能有很多项，比如直到，接着还有等等很多项。因此即使只考虑二阶项，那么在的情况下最终也有个二次项。

而且渐渐地随着特征个数n的增加，二次项的个数大约以的量级增长，其中 n 是原始项的个数，即我们之前说过的到这些项。事实上二次项的个数大约是，因此要包含所有的二次项是很困难的，所以这可能不是一个好的做法。

而且由于项数过多，最后的结果很有可能是过拟合的，此外在处理这么多项时也存在运算量过大的问题。当然，我们也可以试试只包含上边这些二次项的子集。例如，我们只考虑、、直到这些项，这样就可以将二次项的数量大幅度减少，减少到只有100个二次项。但是由于忽略了太多相关项，在处理类似左上角的数据时，不可能得到理想的结果。

实际上，如果只考虑到的平方这一百个二次项，那么你可能会拟合出一些特别的假设。比如，可能拟合出一个椭圆状的曲线，但是肯定不能拟合出像左上角这个数据集的分界线，所以5000个二次项看起来已经很多了。

而现在假设还得包括三次项，例如，事实上，三次项的个数是以的量级增加。当n=100时，可以计算出来最后能得到大概17000个三次项。

所以，当初始特征个数 n 增大时，这些高阶多项式项数将以几何级数递增，特征空间也随之急剧膨胀。当特征个数 n 很大时，如果找出附加项来建立一些分类器，这并不是一个好做法。对于许多实际的机器学习问题，特征个数 n 是很大的。

1.2 计算机视觉

在计算机眼中，图像是以数字矩阵的形式存储的，一张图片被分成了若干个方格，但是方格还没有足够小，随意取出一个方格进行放大，还会有许多多更小的方格，这个小到不能再小的方格叫做一个像素点，像素点有对应的值，在[0,255]之间，数值越大表示这个像素点越亮。

换言之，在计算机世界：

图像是就是像素点构成的三维矩阵(row,col,pixel)。
像素点的位置由三维矩阵中的row,col确定；如(0,0)代表位于第一行、第一列的像素点。
像素点的值由三维矩阵中的pixel确定；像素的值代表图像的亮度。

计算机视觉就是进行图像识别，图像识别就是对图像进行分类。

这个分类问题中特征空间的维数是多少？

显然在真实的情况下，我们不可能只取两个像素点来作为特征。

假设我们用50*50像素的图片，注意，我们的图片已经足够小了哦。长宽只各有50个像素，但这依然是2500个像素点，因此，我们的特征向量的元素数量 n=2500。特征向量X包含了所有像素点的亮度值。

对于典型的计算机图片表示方法，如果存储的是每个像素点的灰度值 （色彩的强烈程度），那么每个元素的值应该在 0 到 255 之间。因此，这个问题中 n=2500。

但是这只是使用灰度图片的情况，如果我们用的是RGB彩色图像，每个像素点包含红、绿、蓝三个子像素，那么 n=7500。

因此，如果我们非要通过包含所有的二次项来解决这个非线性问题，那么仅仅二次项 $x_i*x_j$ 总共大约有300万个（25002/2 ）,这数字大得有点离谱了。对于每个样本来说，要发现并表示所有这300万个项，这计算成本太高了。因此，只是简单的增加二次项或者三次项之类的逻辑回归算法并不是一个解决复杂非线性问题的好办法。因为当 n 很大时，将会产生非常多的特征项。