多层感知机与反向传播算法

最新推荐文章于 2024-10-09 22:28:58 发布

赫兹期货量化软件

最新推荐文章于 2024-10-09 22:28:58 发布

阅读量202

点赞数

文章标签：算法深度学习机器学习人工智能 python

本文链接：https://blog.csdn.net/herzqt/article/details/131305741

版权

本文介绍了神经网络的基础，包括单神经元的感知机和多层感知机的工作原理。通过梯度下降和反向传播算法来训练网络，并通过实际示例展示了预测和权重优化的过程。文章还探讨了历史上首个神经网络模型以及其在现代AI任务中的应用。

摘要由CSDN通过智能技术生成

介绍

这两种方法的普及性日益增加，因此在 Matlab、R、Python、C++ 等领域开发了大量的库，它们接收到一个训练集作为输入，并自动为问题创建合适的网络。
然而，当使用现成的库时，很难理解到底发生了什么以及我们如何得到一个优化的网络。对解决方案基础知识的理解对于这些方法的进一步发展至关重要。在本文中，我们将创建一个非常简单的神经网络结构。
让我们试着理解基本的神经网络类型是如何工作的（包括单神经元感知机和多层感知机）。我们将考虑一个令人兴奋的算法，它负责网络训练（梯度下降和反向传播）。现有的复杂模型往往基于这样简单的网络模型。

历史概述

第一个神经网络是由沃伦·麦卡洛赫（Warren McCulloch）和沃尔特·皮特（Walter Pitts）于1943年提出的。他们写了一篇关于神经元应该如何工作的文章，他们还根据自己的想法建立了一个模型：他们用电路创建了一个简单的神经网络。
人工智能研究进展迅速，1980年，福岛邦彦（Kunihiko Fukushima）开发了第一个真正的多层神经网络。
神经网络的最初目的是创造一个计算机系统，能够以类似人脑的方式解决问题。然而，随着时间的推移，研究人员改变了研究重点，开始使用神经网络来解决各种特定任务。现在，神经网络执行各种各样的任务，包括计算机视觉、语音识别、机器翻译、社交媒体过滤、棋盘游戏或视频游戏、医疗诊断、天气预报、时间序列预测、图像/文本/语音识别等。

神经元的计算机模型：感知机（perceptron）

感知机

感知机的灵感来自于处理单个神经元信息的想法。神经元通过树突接收信号作为输入，树突将电信号传递给细胞体。类似地，感知机接收来自训练数据集的输入信号，这些数据集已经被预先加权并组合成一个称为激活的线性方程。

z = sum(weight_i * x_i) + bias

这里“weight”是网络权重，“x”是输入，“i”是权重或输入的索引，“bias”是没有乘数输入的特殊权重（因此我们可以假设输入总是1.0）。

然后使用传递函数（激活函数）将激活转换为输出（预测）值。

如果 z >= 0.0, y = 1.0 否则就是 0.0

因此，感知机是一种两类问题分类算法（二元分类器），其中可以使用线性方程来分离这两类问题。

这与线性回归和逻辑回归密切相关，它们以类似的方式生成预测（例如，作为输入的加权和）。

感知机算法是最简单的人工神经网络类型。它是一个单神经元模型，可用于两元分类问题。它还为进一步发展更大的网络提供了基础。

编辑

添加图片注释，不超过 140 字（可选）

神经元输入由向量x=[x1，x2，x3，…，xN]表示，该向量可以对应于例如资产价格序列、技术指标值或图像像素。当它们到达神经元时，它们被乘以适当的突触权重——向量w的元素=[w1，w2，w3，…，wN]。这将通过以下公式生成z值（通常称为“激活电位（Activation Potential)”）：