神经网络讲解
最新推荐文章于 2024-10-30 08:00:00 发布

,神经网络有N个的神经元,只有一个最终的输出变量
。那么在输入层进入隐藏层的时候,神经网络是进行下述计算的

就是所谓的Activation function,常用的选择有sigmoid function,tanh等等。这是几种常见Activation function的选择列表(来自于Wikipedia)
。然后,在完成下述计算后,数值会移动到输出层


,我们来推导一下训练的算法。![L(\mathbf{w}, \mathbf{b}_0, \theta, b_1) = \sum_{i = 1}^{K} \frac{1}{2}\left[ N(\mathbf{x}_i;\mathbf{w}, \mathbf{b}_0, \theta, b_1) - y_i\right]^2](https://i-blog.csdnimg.cn/blog_migrate/aa667ba0aba13f05620f08dc2da4b560.png)
代表着人工神经网络这个函数。这样,我们首先要做的就是初始化神经网络的一些自身变量,然后将初始化的变量代入神经网络,加上所有的训练数据,得到初始的误差函数值如下![L(\mathbf{w}, \mathbf{b}_0, \theta, b_1) = \sum_{i = 1}^{K} \frac{1}{2}\left[ \sigma(\mathbf{x}_i\mathbf{w}^T + \mathbf{b}_0){\theta} + b_1 - y_i\right]^2](https://i-blog.csdnimg.cn/blog_migrate/f8a74bc55635e840fd86d4c6162370e2.png)
![\frac{\partial L}{\partial \mathbf{w}} = \sum_{i = 1}^{K} \left(\left[ \sigma(\mathbf{x}_i\mathbf{w}^T + \mathbf{b}_0){\theta} + b_1 - y_i\right] \theta^T \circ \sigma^{\prime}(\mathbf{x}_i\mathbf{w}^T + \mathbf{b}_0) \right)^T \mathbf{x}_i](https://i-blog.csdnimg.cn/blog_migrate/cc7b6a76f2dc26804a537596f06bea88.png)
![\frac{\partial L}{\partial \mathbf{b}_0} = \sum_{i = 1}^{K} \left[ \sigma(\mathbf{x}_i\mathbf{w}^T + \mathbf{b}_0){\theta} + b_1 - y_i\right] \theta^T \circ \sigma^{\prime}(\mathbf{x}_i\mathbf{w}^T + \mathbf{b}_0)](https://i-blog.csdnimg.cn/blog_migrate/fc100ee6ad7ddbfa4ef61e0ba77d11ea.png)
![\frac{\partial L}{\partial \theta} = \sum_{i = 1}^{K} \left[ \sigma(\mathbf{x}_i\mathbf{w}^T + \mathbf{b}_0){\theta} + b_1 - y_i\right] \sigma^T(\mathbf{x}_i\mathbf{w}^T + \mathbf{b}_0)](https://i-blog.csdnimg.cn/blog_migrate/acea677d43d69a72112c84ef2a3d231a.png)
![\frac{\partial L}{\partial b_1} = \sum_{i = 1}^{K} \left[ \sigma(\mathbf{x}_i\mathbf{w}^T + \mathbf{b}_0){\theta} + b_1 - y_i\right]](https://i-blog.csdnimg.cn/blog_migrate/6fe24940ee5a93e52fdd14d46db20ca1.png)

506
108

被折叠的 条评论
为什么被折叠?