1 非线性假设
为什么研究神经网络
对于简单的只含有2个特征
x
1
x_{1}
x1和
x
2
x_{2}
x2的数据集,我们可以通过逻辑回归模型来拟合,也可以确定决策边界,如图所示,因为我们可以把所有
x
1
x_{1}
x1和
x
2
x_{2}
x2的组合都包含进去慢慢尝试。
但是实际应用问题中,特征的数量会非常多,以住房分类问题为例,我们对房子的100个特点都有所了解,接下来想预测房子在未来半年被卖出去的概率。
- 如果只考虑两两组合的二次项, x 1 2 x_{1}^{2} x12、 x 1 x 2 x_{1}x_{2} x1x2…,最后会总共产生5000个新特征,数量级是 O ( n 2 ) O(n^{2}) O(n2)
- 如果只考虑平方项, x 1 2 、 x 2 2 . . . x_{1}^{2}、x_{2}^{2}... x12、x22...,最后会产生100个新特征,数量级是 O ( n ) O(n) O(n)
- 如果我们考虑三次项 x 1 x 2 x 3 、 x 1 2 x 2 . . . x_{1}x_{2}x_{3}、x_{1}^2x_2... x1x2x3、x12x2...,数量级是 O ( n 3 ) O(n^3) O(n3)
从上面这些分析不难看出,当初始特征个数n增大时,这些高阶多项式项数将以几何级数递增,特征空间也随之急剧膨胀。当特征个数n很大时,如果找出附加项来建立一些分类器,这并不是一个好做法。
再比如利用计算机视觉来识别汽车与非汽车图像,主要思路就是对图中每个像素点的灰度值进行识别,对于50*50的图片,每张图片就拥有2500个像素点,考虑二次项就会有将近300万个特征(惊人的大)。
这种情况下我们就需要使用神经网络来进行非线性分类。
2 神经元与大脑
神经网络发展历程:
大脑可以处理来自任何传感器的信息。
下面从左到右、从上到下以此为,用舌头看到灰度图像,用咂舌头或者打响指感知物体实现类似声纳功能,定向发声触觉皮带帮助人体确定方向,青蛙植入的第三只眼睛正常运作。
(科学家这也太疯狂了)