java神经网络_代码实现神经网络技巧：参数展开

最新推荐文章于 2024-04-29 15:53:41 发布

形象顧問Aking

最新推荐文章于 2024-04-29 15:53:41 发布

阅读量172

点赞数

文章标签： java神经网络

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_31485835/article/details/114397200

版权

本文是吴恩达《机器学习》视频笔记第54篇，对应第5周第4个视频。

“Implementation note:——Unrolling parameters”

上几个小节，从理论上讲了怎样实现神经网络代价函数的计算。当然，我们最终还是要通过代码告诉计算机怎样去实现这样一个算法。

本节将快速的介绍代码实现神经网络的一个重要技巧，将参数从矩阵展开成向量，参数的向量展开在后续的最优化步骤中有重要应用。

为什么要把矩阵展开成一维向量？

在用代码进行代价函数的优化的时候，我们会声明下图中“costFunction”这样的函数。

costFunction会有一个输入theta，这里的theta是神经网络的初始参数，而这些参数呢是以n维(或n+1维)向量的形式输入的。而且，costFunction的返回值中的gradient也是一个和参数的维数相同的向量。

但是，从上面的两个小节知道，在我们实际构建的网络模型中，这些参数或者梯度都是和神经网络的层数相关的矩阵：

那我们建立的模型中的这些矩阵形式的参数是怎样作为一维向量形式的输入参数传递给我们定义的做代价函数优化的costFunction的呢？

一个例子

我们通过一个例子来更好的理解一下这个事。

假设我们有下图所示的这样一个网络，输入层有10个输入，输出层个数为1，而中间层为10.

以第1层到第2层为例，10个输入神经元，而每个输入神经元的另一边都会连接中间层的每一个神经元，也就是说第一层的\Theta_2就是一个10×11的矩阵(额外加一个偏移量)。换句话说，第一层到第二层的线路上的参数就是一个10×11的矩阵。

在Octave中的实现

那么在Octave中如何把这些矩阵形式的参数展开成向量输入给costFunction呢？

可以像下图这样，直接把矩阵中的所有元素取出来，然后用中括号把它们括在一起组成一个长长的向量：

上图中的第二行代码是对D矩阵的。

那，其实costFunction帮我们把参数优化完成之后，也是放在一个长长的向量中，那怎样把这个向量再还原成Theta_1, Theta_2, Theta_3呢？

这个时候，只需要将向量按照索引值切成合适的小段，然后reshape成一个又一个的矩阵就可以了，如下图：

代码演示

神经网络代价函数优化算法实现的伪代码

其实本小节讲的事挺简单的，因为矩阵形式的量没法在函数中好好的传输，所以我们在进行算法实现的时候，我们需要：

(1)先把所有矩阵转成一个长长的向量。

(2)然后在costfunction中实现的时候再转成矩阵。

(3)然后使用前向/后向算法计算梯度和J(\Theta)，然后再转成一个长长的向量返回。

形象顧問Aking

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。