深度学习：多层感知机-CSDN博客

本文链接：https://blog.csdn.net/m0_46135173/article/details/141678799

多层感知机（MLP, Multilayer Perceptron）

是神经网络中最基本的一种结构，也是深度学习的基础。MLP 是一种前馈神经网络，包含多个全连接层（每一层的神经元与下一层的每一个神经元都连接）。它具有强大的表示能力，能够学习和近似复杂的非线性关系。

结构与组成

MLP 由以下几部分组成：

输入层：接收输入数据的特征。每个输入神经元对应一个输入特征。

隐藏层：输入层和输出层之间的神经元层。隐藏层通过权重和激活函数将输入映射到输出。可以有多个隐藏层，层数越多，网络越深。

输出层：生成最终的输出。输出层的神经元个数取决于任务类型，例如分类任务中的类别数或回归任务中的目标值。

激活函数：隐藏层和输出层的神经元通常使用非线性激活函数，如 ReLU、Sigmoid、Tanh 等。这些激活函数引入了非线性，使得 MLP 能够处理非线性可分的问题。

工作原理

MLP 的工作过程包括以下几个步骤：

前向传播：输入数据通过输入层传递到隐藏层，经过每一层的加权求和和激活函数后，最终传递到输出层，生成预测结果。

损失计算：
根据预测结果和实际标签计算损失，常见的损失函数包括均方误差（MSE）和交叉熵损失（Cross-Entropy Loss）。损失函数定义了模型预测的误差，网络训练的目标是最小化这个误差。

反向传播：
通过反向传播算法（Backpropagation）计算损失函数对每个权重和偏置的梯度。
利用链式法则，逐层计算误差，并根据误差调整每一层的权重和偏置。

权重更新：
使用优化算法（如梯度下降或 Adam）根据计算的梯度更新网络的权重和偏置。

激活函数

激活函数引入了非线性，使得 MLP 能够处理复杂的非线性关系。常见的激活函数有：
Sigmoid、Tanh、ReLU（Rectified Linear Unit）：

优化与训练

MLP 的训练过程涉及调整网络的权重和偏置，使得损失函数达到最小值。常见的优化算法包括：

梯度下降法（Gradient Descent）：通过计算损失函数的梯度，更新权重使损失减少。可以是批量梯度下降、随机梯度下降或小批量梯度下降。

动量（Momentum）：在梯度下降中加入动量项，以加速收敛并减少震荡。

自适应学习率方法：如 Adam、RMSProp 等，根据梯度历史动态调整学习率。

应用场景

MLP 广泛应用于各种任务，包括：

分类：如手写数字识别（MNIST 数据集），图像分类等。
回归：如房价预测、股票价格预测等。
特征提取：在图像、文本等领域提取高层次特征。
6. 实现与示例
以下是使用 TensorFlow 构建一个简单 MLP 的示例，用于分类任务：

import tensorflow as tf
from tensorflow.keras.datasets import mnist
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense, Flatten

# 加载 MNIST 数据集
(X_train, y_train), (X_test, y_test) = mnist.load_data()

# 数据预处理
X_train = X_train / 255.0
X_test = X_test / 255.0

# 构建 MLP 模型
model = Sequential([
    Flatten(input_shape=(28, 28)),  # 将 28x28 图像展平成一维向量
    Dense(128, activation='relu'),  # 第一层隐藏层，128 个神经元，ReLU 激活函数
    Dense(64, activation='relu'),   # 第二层隐藏层，64 个神经元，ReLU 激活函数
    Dense(10, activation='softmax') # 输出层，10 个神经元，softmax 激活函数，用于多分类
])

# 编译模型
model.compile(optimizer='adam', loss='sparse_categorical_crossentropy', metrics=['accuracy'])

# 训练模型
model.fit(X_train, y_train, epochs=10, validation_data=(X_test, y_test))

# 测试模型
test_loss, test_acc = model.evaluate(X_test, y_test)
print('Test accuracy:', test_acc)