机器学习个人笔记——（六）神经网络（1）从线性回归到神经网络简单直观分析

最新推荐文章于 2024-07-19 08:58:29 发布

wei22134

最新推荐文章于 2024-07-19 08:58:29 发布

阅读量1.8k

点赞数 3

分类专栏：机器学习笔记文章标签：神经网络机器学习

本文链接：https://blog.csdn.net/weixin_42582355/article/details/108219135

版权

机器学习笔记专栏收录该内容

8 篇文章 0 订阅

订阅专栏

神经网络

一、线性回归与神经网络
二、神经网络原理
- 一般结构
- 神经网络传播过程
三、激活函数

一、线性回归与神经网络

神经网络是一种模拟人脑的神经网络以期能够实现类人工智能的机器学习技术。

单层

单个输出

假设现需要预测房屋的出售价格，房屋通过以下特征，面积（ $x_{1}$ ）空气指数（ $x_{2}$ ），交通指数( $x_{3}$ )，最终输出价格（ $y$ ）

面积（ $x_{1}$ ）	空气指数（ $x_{2}$ ）	交通指数( $x_{3}$ )	价格（ $y$ ）
100	25	40	30
120	35	45	50
…	…	…	…

若上表为数据样本集，
使用线性回归去训练模型并预测，步骤如下：

设定线性方程为：
$y=w_{1}x_{1}+w_{2}x_{2}+w_{3}x_{3}+b$
通过数据集训练，求出最合适的参数：

$w_{1},w_{2},w_{3},b$

从而得到得到一个完整的表达式:
$y=w_{1}x_{1}+w_{2}x_{2}+w_{3}x_{3}+b$
当输入一个新的数据（输入特征值 $x_{1},x_{2},x_{3}$ ），代入3中的方程，即可实现预测 $y$ 的效果。

向量化：

将 $w_{1},w_{2},w_{3}$ 看成一个列向量:
$\mathbf{w}=\begin{bmatrix} w_{1}\\ w_{2}\\ w_{3} \end{bmatrix}$
将输入特征也 $x_{1},x_{2},x_{3}$ 也看成一个列向量:
$\mathbf{x}=\begin{bmatrix} x_{1}\\ x_{2}\\ x_{3} \end{bmatrix}$

此时表达式 $y=w_{1}x_{1}+w_{2}x_{2}+w_{3}x_{3}+b$
向量化即转换为：
$y=\mathbf{w^Tx}+b$

以上是线性回归实现预测房屋价格的例子

用图来表示即
在这里插入图片描述
在这个例子中，只有一个输出： $y$

多个输出

若，
将预测房屋价格问题进行修改，不光要预测价格，还要预测房屋内的房间数量
如此以来，训练样本集的特征以及标签即如下表所示。

面积（ $x_{1}$ ）	空气指数（ $x_{2}$ ）	交通指数( $x_{3}$ )	价格（ $y_{1}$ ）	房间数量 $y_{2}$
100	25	40	30	5
120	35	45	50	6
…	…	…	…	…

此时，若要实现该模型，则需要设2个方程
分别为
$y_{1}=\mathbf{w_{1}^Tx}+b_{1}$
$y_{2}=\mathbf{w_{2}^Tx}+b_{2}$
通过训练集分别求出
$w_{11},w_{12},w_{13},b_{1}（即\mathbf{w_{1}}，b_{1}$
$w_{21},w_{22},w_{23},b_{22}（即\mathbf{w_{1}}，b_{2}$
将新输入的特征分别代入两个方程中即可预测 $y_{1}，y_{2}$
示意图如下，此时有2个输出： $y_{1}，y_{2}$
在这里插入图片描述

多层

单层单个输出中，我们直接将 $x_{1},x_{2},x_{3}$ 代入方程中，得到输出的预测值 $y$
单层多个输出中，将 $x_{1},x_{2},x_{3}$ ，代入不同的方程，得到不同的输出预测值 $y_{1},y_{2}$

缺点：使用线性回归，最终都是通过一个直线，或者平面对数据进行拟合，但是，在实际问题中，许多问题并不都是线性的

现将问题再进行修改，我需要预测房屋中的家庭人口数量
训练样本集的特征以及标签即如下表所示。

面积（ $x_{1}$ ）	空气指数（ $x_{2}$ ）	交通指数( $x_{3}$ )	人口数量 $y$
100	25	40	4
120	35	45	5
…	…	…	…

此时依旧可以使用线性回归，使用如下方式进行线性拟合
在这里插入图片描述
但是，从特征和标签的相关性来看，家庭人口数与 面积（ $x_{1}$ ），空气指数（ $x_{2}$ ），交通指数( $x_{3}$ ) 似乎并没有直接的关联性，若只使用线性回归进行拟合可能会导致训练出来的效果非常差。

从另一方面来看，家庭人口数这个标签，和 房间数量 以及 房屋的价格（等价于经济水平），相关性比较大，因此使用房间数量和房屋价格作为特征，所训练出来的效果可能会更好。

但是给出的特征里，并没有房间数量和房屋价格这两个特征。

这个时候就可以借助单层的问题思路，引出多层的概念
我们定义一个新的方程
$y=l_{1}y_{1}+l_{2}y_{2}+c$
$y_{1}$ 为房间数量特征， $y_{2}$ 为房屋价格特征

在之前的问题中，我们可以通过特征值 $x_{1}, x_{2}, x_{3}$ 分别代入以下两个方程中，得到 $y_{1},y_{2}$
$y_{1}=\mathbf{w_{1}^Tx}+b_{1}$
$y_{2}=\mathbf{w_{2}^Tx}+b_{2}$
此时，再将 $y_{1},y_{2}$ 作为已知的特征，代入最终的方程，进行训练得到合适的参数 $l_{1},l_{2},l_{3},c$ ：
$y=l_{1}y_{1}+l_{2}y_{2}+c$
即可得到所需要的 $y$

为了区分，使用 $l_{1},l_{2},c$ 作为参数

向量化即为：
$y=\mathbf{l^Tx}+c$

用图进行表示即为
在这里插入图片描述

这个就有点类似于神经元，每个节点干不同的事情

在机器学习中的神经网络也是这样一个结构，但是相比机器学习的神经网络还少了一个部分，激活函数。

二、神经网络原理

在神经网络中， $y_{1},y_{2}$ 并没有明确的含义，在之前为了表达更直观，将 $y_{1},y_{2}$ 称作为房间数量和房屋价格这两个特征，但是实际上，在一个完整的神经网络中，隐藏层的输出的不会给出明确含义

同样，一个多层的神经网络结构包含了输入层，隐藏层，输出层

而，在神经网络中，神经元节点会套一层激活函数。
例如在上述的隐藏层和输出层表达式中，
$y_{1}=\mathbf{w_{1}^Tx}+b_{1}$
$y_{2}=\mathbf{w_{2}^Tx}+b_{2}$
$y=\mathbf{l^Ty}+c$
加入对应的激活函数=>
$y_{1}=f_{1}(\mathbf{w_{1}^Tx}+b_{1})$
$y_{2}=f_{2}(\mathbf{w_{2}^Tx}+b_{2})$
$y=f_{3}(\mathbf{l^Ty}+c)$
其中， $f_{1}(x),f_{2}(x),f_{3}(x)$ 为激活函数。

用图表示如下：
在这里插入图片描述

一般结构

神经网络中，如下图
输入层，m个特征，即m个输入，分别为 $x_{1}$ ~ $x_{m}$ 。
隐藏层，有k层，每一层的节点个数分别为 $n_{1},n_{2},...,n_{k}$ ，即第i层有 $n_{i}$ 个输出

第1层隐藏层的第1个节点，其表达式为：
$y^{[1]}_{1}=f(w^{[1]}_{11}x_{1}+w^{[1]}_{12}x_{2}+...+w^{[1]}_{1m}x_{m}+b^{[1]}_{1})$
m为上一层的输入，向量形式为
$y^{[1]}_{1}=f(\mathbf{w^{[1]}_{1}x}+b^{[1]}_{1})$
-----------------------------------------------------------------------------------
第1层隐藏层的第2个节点，其表达式为：
$y^{[1]}_{2}=f(w^{[1]}_{21}x_{1}+w^{[1]}_{22}x_{2}+...+w^{[1]}_{2m}x_{m}+b^{[1]}_{2})$
m为上一层的输入，向量形式为
$y^{[1]}_{2}=f(\mathbf{w^{[1]}_{2}x}+b^{[1]}_{2})$
-----------------------------------------------------------------------------------
第1层隐藏层的第j个节点， $\in [1,2,3...,n_{1}]$ ,
其表达式为：
$y^{[1]}_{j}=f(w^{[1]}_{j1}x_{1}+w^{[1]}_{j2}x_{2}+...+w^{[1]}_{jm}x_{m}+b^{[1]}_{j})$
m为上一层的输入，向量形式为
$y^{[1]}_{2}=f(\mathbf{w^{[1]}_{j}x}+b^{[1]}_{j})$

第i层隐藏层的第j个节点， $\in [1,2,3...,k]$ , $\in [1,2,3...,n_{j}]$
且设第i层隐藏层的输入为 $x^{[i]}_{1},x^{[i]}_{2},...,x^{[i]}_{n_{i-1}}$ (向量形式： $\mathbf{x^{[i]}}$ )
(输入的个数为上一层的输出个数)
表达式为：
$y^{[i]}_{i}=f(w^{[i]}_{i1}x^{[i]}_{1}+w^{[i]}_{i2}x^{[i]}_{2}+...+w^{[i]}_{in_{i-1}}x^{[i]}_{n_{i-1}}+b^{[i]}_{i})$
向量形式为
$y^{[i]}_{i}=f(\mathbf{w^{[i]}_{j}x^{[i]}}+b^{[1]}_{i})$

在这里插入图片描述
输出层：

输出层的n个输出， $y_{1}$ ~ $y_{n}$ 表达式为：
$y_{1}=f(\mathbf{w^{k+1}_{1}x})$ (k+1表示隐藏层的后一个)
$y_{2}=f(\mathbf{w^{k+1}_{2}x})$
…
$y_{n}=f(\mathbf{w^{k+1}_{n}x})$

神经网络传播过程

在这里插入图片描述
以该结构为例，
输出 $y$
$y=f_{3}(l_{1}y_{1}+l_{2}y_{2}+c)=f_{3}(\mathbf{l^Tx}+c)$

$y_{1}=f_{1}(w_{11}x_{1}+w_{12}x_{2}+w_{13}x_{3}+b_{1})=f_{1}(\mathbf{w_{1}^Tx}+b_{1})$
$y_{2}=f_{2}(w_{21}x_{1}+w_{22}x_{2}+w_{23}x_{3}+b_{2})=f_{2}(\mathbf{w_{2}^Tx}+b_{2})$