多层感知机的从零开始实现
单隐藏层的含义与作用:隐藏层的意义就是把输入数据的特征,抽象到另一个维度空间,来展现其更抽象化的特征,这些特征能更好的进行线性划分。
多隐藏层的含义:多个隐藏层其实是对输入特征多层次的抽象,最终的目的就是为了更好的线性划分不同类型的数据(隐藏层的作用)。
- 前提:
导入PyTorch库与nn模块与d2l包;解压数据文件(使用以!开头的Shell命令来解压和 移动数据集文件;如:!tar -xf Datasets.tar:使用"tar"命令解压缩名为"Datasets.tar"的文件, 将其中的内容提取出来。);使用d2l包中的函数d2l.load_data_fashion_mnist 函数来加 载 FashionMNIST 数据集并创建返回训练和测试数据迭代器
- 初始化模型参数
num_inputs, num_outputs, num_hiddens= 784, 10, 64表示设置输入层大小 为784,输出层 大小为10,隐藏层大小为64(隐藏层的大小决定了神经网络中每个隐藏层单元的数量。 较大的隐藏层大小可以增加网络的容量,使其能够更好地拟合训练数据。然而,设置过 大的隐藏层大小可能导致模型过度拟合训练数据,从而在未见过的数据上表现较差。)
W1 = nn.Parameter(torch.randn(
num_inputs, num_hiddens, requires_grad=True) * 0.01)
W2 = nn.Parameter(torch.randn(
num_hiddens, num_outputs, requires_grad=True) * 0.01)
这两行代码分别定义了输出层到隐藏层的权重参数W1与隐藏层到输出层的权重参数W2, 都采用正态分布初始化,启用梯度计算。
b1,b2则分别定义为隐藏层的偏置参数与输出层的偏置参数。
- 激活参数