反向传播神经网络--自编码-解码器的数据形状（shape info）分析

最新推荐文章于 2024-08-16 11:12:18 发布

班德的祷告

最新推荐文章于 2024-08-16 11:12:18 发布

阅读量1k

点赞数

分类专栏：机器学习文章标签：神经网络深度学习人工智能机器学习

本文链接：https://blog.csdn.net/CB44606/article/details/105938521

版权

这篇博客详述了反向传播神经网络中自编码-解码器的数据形状变化，从输入784节点到250-10-250-784的网络结构，分析正向传播和反向传播过程中的矩阵运算，包括激活函数、损失函数和梯度计算，最后讨论了权重和偏置的更新过程。

摘要由CSDN通过智能技术生成

反向传播神经网络–自编码-解码器的数据形状（shape info）分析

目标

分析自编码-解码器这种神经网络，训练时，数据形状的变化。
Shape info A[3,2]表示A矩阵有3行2列。

网络结构

五层神经网络：784 -> 250 -> 10 -> 250 -> 784

使用MNIST数据，输入层有 28 * 28 = 784个节点。
第二层250个节点。
第三层10个节点。
第四层250个节点。
第五层 28 * 28 = 784个节点。
除了最后一层，其他层都使用RELU作为激活函数。最后一层使用softmax作为激活函数。
使用MSE作为损失函数
小批量梯度下降，batch size是80

前三层被称为自编码器（autoencoder），后三层称为自解码器（autodecoder）。
可以看出数据先被压缩编码，然后在被解码还原。这种结构可以用来压缩数据，提取特征和异常检测。

        //Set up network. 784 in/out (as MNIST images are 28x28).
        //784 -> 250 -> 10 -> 250 -> 784
        MultiLayerConfiguration conf = new NeuralNetConfiguration.Builder()
                .seed(12345)
                .weightInit(WeightInit.XAVIER)
                .updater(new AdaGrad(0.05))
                .activation(Activation.RELU)
                .l2(0.0001)
                .list()
                .layer(new DenseLayer.Builder().nIn(784).nOut(250)
                        .build())
                .layer(new DenseLayer.Builder().nIn(250).nOut(10)
                        .build())
                .layer(new DenseLayer.Builder().nIn(10).nOut(250)
                        .build())
                .layer(new OutputLayer.Builder().nIn(250).nOut(784)
                        .lossFunction(LossFunctions.LossFunction.MSE)
                        .build())
                .build();

详细分析

正向传播

第一层
- 1. 数据进入第一层
    输入数据 input[ 80, 784 ]
- 1. 第一层到第二层求 $z^2$
    $z^2[ 80, 250] = input[ 80, 784 ] * w^2[ 784, 250 ] + b^2$
- 1. 第一层到第二层求 $a^2$
    $a^2[ 80, 250] = σ( z^2[ 80, 250] )$
第二层
- 1. 第二层到第三层求 $z^3$
    $z^3[ 80, 10 ] = a^2[ 80, 250 ] * w^3[ 250, 10 ] + b^3$
- 1. 第二层到第三层求 $a^3$
    $a^3[ 80, 10 ] = σ( z^3[ 80, 10 ] )$
第三层
- 1. 第三层到第四层求 $z^4$