自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

分享技术人生的学习笔记和过往心得,与志同道合者共同进步

学习技术,交流技术,探索技术,应用技术

  • 博客(174)
  • 收藏
  • 关注

原创 神经网络优化 - 小批量梯度下降之批量大小的选择

在小批量梯度下降法中,批量大小(Batch Size)对网络优化的影响也非常大,本文我们来学习如何选择小批量梯度下降的批量大小。

2025-04-18 17:47:25 1451 1

原创 神经网络优化 - 小批量梯度下降

在训练深度神经网络时,训练数据的规模通常都比较大。如果在梯度下降 时,每次迭代都要计算整个训练数据上的梯度,这就需要比较多的计算资源。另外大规模训练集中的数据通常会非常冗余,也没有必要在整个训练集上计算梯度。因此,在训练深度神经网络时,经常使用小批量梯度下降法(Mini-Batch Gradient Descent)。

2025-04-18 14:28:07 1603

原创 神经网络优化 - 高维变量的非凸优化

本文我们来学习高维变量(空间)的非凸优化,深度神经网络是一个高度非线性的模型,其风险函数是一个非凸函数,因此风险最小化是一个非凸优化问题。此外,深度神经网络还存在梯度消失问题。因此,深度神经网络的优化是一个具有挑战性的问题。

2025-04-17 20:02:15 1232

原创 低维空间的非凸优化问题

深度神经网络的参数非常多,其参数学习是在非常高维空间中的非凸优化问题。为了更好的理解高维空间中的非凸优化问题,作为参考和对比,本文我们先来了解一下低维空间的非凸优化问题。

2025-04-17 19:31:07 1806

原创 神经网络模型应用到机器学习时的难点

本文我们主要了解和总结一下应用神经网络模型到机器学习时存在的一些难点问题,这样大家有一个整体的认识,从下一博文开始,我们来学习网络优化与正则化的相关知识,从而来掌握应对的技能。

2025-04-16 16:38:30 943

原创 循环神经网络 - 扩展到图结构之图神经网络

在实际应用中,很多数据是图结构的,比如知识图谱、社交网络、分子网络等。而前馈网络和反馈网络很难处理图结构的数据。本文我们来学习图神经网络。

2025-04-16 11:00:00 1036

原创 循环神经网络 - 扩展到图结构之递归神经网络

递归神经网络通过将输入数据视为树或层次结构,使用相同的组合函数递归地将子结构信息合成更高层次的表示,非常适合处理具有内在层次结构的问题,如句法解析和情感分析。它与简单循环网络共享“信息传递”与“参数共享”的基本思想,但处理的数据结构和信息组合方式有所不同。理解递归神经网络,可以联想到在一棵树上自下而上地整合各个“叶子”节点的信息,逐步构建出整个树的综合表示。

2025-04-15 17:14:47 771

原创 循环神经网络 - 深层循环神经网络

如果将深度定义为网络中信息传递路径长度的话,循环神经网络可以看作既“深”又“浅”的网络。一方面来说,如果我们把循环网络按时间展开,长时间间隔的状态之间的路径很长,循环网络可以看作一个非常深的网络。从另一方面来 说,如果同一时刻网络输入到输出之间的路径𝑡,这个网络是非常浅的。本文我来学习两种常见的增加循环神经网络深度的做法。

2025-04-15 11:43:35 1118

原创 循环神经网络 - 门控循环单元网络之参数学习

GRU(门控循环单元)的参数学习与其他循环神经网络类似,主要依赖于梯度下降和反向传播通过时间(BPTT)算法。本文我们通过一个简单、具体的例子来说明 GRU 参数是如何在训练过程中“自适应”调整的。

2025-04-14 17:04:25 1375

原创 循环神经网络 - 门控循环单元网络

本文我们来学习门控循环单元(Gated Recurrent Unit, GRU),GRU是一种对传统循环神经网络(RNN)进行改进的变体,其设计目标是在捕捉序列数据中时间依赖信息时,既提高模型表达能力又减少参数量和计算复杂度。与 LSTM 网络相比,GRU 结构更简单,但在许多任务中表现与 LSTM 相近甚至更优。

2025-04-14 16:15:07 1340

原创 最成功的循环神经网络模型LSTM

最近的博文,我们一直在学习循环神经网络模型LSTM,一种技术的落地或者出现,总是为了应用,本文我们来了解一下LSTM的成功应用,加深大家对循环神经网络模型的理解。

2025-04-11 15:52:35 1425

原创 循环神经网络 - LSTM 网络的各种变体

前面的博文中,我们了解和学习了长短期记忆网络,本文我们来学习LSTM 网络的各种变体。目前主流的 LSTM 网络用三个门来动态地控制内部状态应该遗忘多少历史信息,输入多少新信息,以及输出多少信息.我们可以对门控机制进行改进并获 得 LSTM 网络的不同变体。

2025-04-11 15:21:57 1395

原创 循环神经网络 - 长短期记忆网络的门控机制

长短期记忆网络(LSTM)的门控机制是其核心设计,用来解决普通 RNN 在长程依赖中遇到的梯度消失与信息混淆问题。为了更进一步理解长短期记忆网络,本文我们来深入分析一下其门控机制。

2025-04-10 18:44:50 2433

原创 循环神经网络 - 长短期记忆网络

LSTM 的门控机制利用三个门(遗忘门、输入门和输出门)对细胞状态进行动态控制,通过简单但关键的激活函数在每个时间步对信息进行筛选、更新和输出。这样不仅能有效保留和利用长程依赖,还能动态响应新输入,使得网络在面对序列任务时能够稳定学习复杂非线性关系。即使激活函数本身简单,但通过层级组合、参数学习和门控设计,其整体非线性表达能力非常强大,足以处理现实世界中复杂的信息流动与语义关联。

2025-04-10 16:51:05 1376 2

原创 神经网络 - 关于简单的激活函数的思考总结

最近一直在学习神经网络,有一些收获,也有一些迷惑,所以驻足思考:为什么简单的激活函数如sigmoid函数、ReLU函数,当应用在神经网络的模型中,却可以实现对现实世界复杂的非线性关系的模拟呢?本文我们来进行理解其中的原理。

2025-04-09 18:03:22 1147

原创 循环神经网络 - 长程依赖问题及改进方案

长程依赖问题是 RNN 在参数学习时面临的一大难题,其根源在于反向传播过程中梯度连续累乘因子(如激活函数导数和权重矩阵)的影响,使得早期时间步的梯度被极度缩小或放大。理解这一问题的原理有助于我们设计更健壮的网络,如 LSTM、GRU 等,以及采取梯度截断和合适的初始化策略。这样可以使模型更好地捕捉长距离依赖,从而提高在语言、音频等序列任务上的表现。

2025-04-09 16:51:00 2039

原创 循环神经网络 - 参数学习之实时循环学习

前一博文我们认识了循环神经网络参数学习的随时间反向传播算法BPTT,本文我们来了解实时循环学习RTRL。与反向传播的 BPTT 算法不同的是,实时循环学习(Real-Time Recurrent Learning,RTRL)是通过前向传播的方式来计算梯度。

2025-04-08 17:37:13 1401 2

原创 循环神经网络 - 参数学习之随时间反向传播算法

BPTT 算法将循环神经网络看作一个展开的多层前馈网络,其中“每一层”对 应循环网络中的“每个时刻”。这样,循环神经网络就可以按照前馈网络中的反向传播算法计算参数梯度。在“展开”的前馈网络中,所有层的参数是共享的,因此参数的真实梯度是所有“展开层”的参数梯度之和。

2025-04-08 17:10:09 1525

原创 deepseek关于知识库的切割策略&设置

如果我们搭建了私有的DeepSeek服务,比如满血版,则可以通过API或者控制后台来添加知识库,提高特定场合的使用效率。DeepSeek可以根据不同的知识库需求灵活设置自定义的切割策略,以达到最大限度的利用知识库。

2025-04-06 20:27:31 2139

原创 deepseek对知识库的切割策略,会影响知识库的利用率和准确性吗?

本文我们来了解一下不同的切割策略,可能造成的DeepSeek对于知识库应用的影响。DeepSeek默认的按字符切割方式在特定场景下可能对知识库的利用率和准确性产生影响,但其效果取决于具体应用场景和文本类型。

2025-04-06 20:17:55 1374

原创 循环神经网络 - 机器学习任务之异步的序列到序列模式

异步的序列到序列模式是处理现实世界复杂时序任务的基石,它通过分离输入理解(编码)和输出生成(解码),赋予模型以下能力:动态适应输入输出的长度差异(如翻译中的词汇不对等),捕捉全局上下文(如生成文本时保持逻辑连贯),实现实时或延迟响应(如同声传译中的“边听边译”)。未来随着模型架构(如Transformer、神经辐射场)的演进,异步序列处理将更高效灵活,推动多模态AI(视频生成、机器人控制等)的边界进一步扩展。

2025-04-03 18:07:23 1199

原创 循环神经网络 - 机器学习任务之同步的序列到序列模式

本文我们来学习循环神经网络应用中的另一种模式:同步的序列到序列模式!这种模式适用于输入和输出长度相同且时序对应的任务,如金融数据预测、传感器数据监控、音频信号处理(例如去噪、增强)等。在这些场景中,同步的模型能够捕捉局部时序变化,减少不必要的信息压缩和解码步骤,从而提高预测或恢复精度。

2025-04-03 14:49:00 1138

原创 认识DeepSeek的知识库

本文我们来了解DeepSeek的知识库的构建,以及DeepSeek如何使用知识库

2025-04-02 17:48:29 1274

原创 循环神经网络 - 机器学习任务之序列到类别模式

“序列到类别”模式利用 RNN 的循环结构将一个完整的输入序列转化为一个全局的表示(通常是最终隐藏状态),再通过分类层输出一个类别标签。这种模式适用于情感分析、文本分类、语音识别中说话人识别等任务。通过具体例子,如电影评论情感分类,可以清晰看到输入序列如何通过嵌入、循环处理,最终得到一个能够代表整个序列语义的表示,并用于分类决策。

2025-04-02 12:03:03 995

原创 循环神经网络 - 通用近似定理 & 图灵完备

本文我们来认识和学习循环神经网络的理论基础,通用近似定理和图灵完备。循环神经网络的拟合能力也十分强大,一个完全连接的循环网络是任何非线性动力系统的近似器。

2025-04-01 16:25:45 1189

原创 循环神经网络 - 简单循环网络

本文我们来学习和了解简单循环网络(Simple Recurrent Network,SRN), SRN是一个非常简单的循环神经网络,只有一个隐藏层的神经网络。简单循环神经网络,也常称为 Elman 网络,是最基本的循环神经网络(RNN)架构。它通过在隐藏层中引入循环连接,使网络能够处理序列数据,并记忆之前的输入信息。

2025-04-01 12:04:29 1401

原创 循环神经网络 - 给网络增加记忆能力

为了处理时序数据并利用其历史信息, 我们需要让网络具有短期记忆能力。而前馈网络是一种静态网络,不具备这种记忆能力。在正式学习循环神经网络之前,我们先来了解一下给网络增加短期记忆能力的三种方法。

2025-03-28 18:14:32 1279

原创 神经网络 - 前馈神经网络(FNN)、全连接神经网络(FCNN)和卷积神经网络(CNN)的区别与联系

在前面的博文中,我们依次学习了前馈神经网络(FNN)、全连接神经网络(FCNN)和卷积神经网络(CNN),为了避免混淆,本文我们来总结一下这三种神经网络的区别和联系。并且引入与循环神经网络的对比,从下一博文开始,我们来学习循环神经网络。

2025-03-28 11:08:53 2619

原创 卷积神经网络 - 微步卷积、空洞卷积

今天我们来加深学习微步卷积和空洞卷积,即可以通过步长和零填充来进行不同 的卷积操作。

2025-03-27 16:28:26 1991 1

原创 卷积神经网络 - 转置卷积

本文,围绕转置卷积,举了4个例子,虽然篇幅有点长,但是每个例子都体现了不同的思想,需要一些耐性来研读,这样也有助于大家深入理解和掌握转置卷积。

2025-03-27 12:48:43 1487

原创 卷积神经网络 - ResNet(残差网络)

残差网络(Residual Network,简称 ResNet)是一种特殊的深度神经网络结构,由 Kaiming He 等人在 2015 年提出,目的是解决深层网络训练中出现的退化问题和梯度消失问题,本文我们来学习残差网络。

2025-03-26 14:00:00 2124

原创 卷积神经网络 - Inception 网络

在卷积网络中,如何设置卷积层的卷积核大小是一个十分关键的问题。在 Inception 网络中,一个卷积层包含多个不同大小的卷积操作,称为Inception 模块。Inception 网络是由有多个 Inception 模块和少量的汇聚层堆叠而成。本文我们来学习Inception 网络。

2025-03-26 11:00:00 2012

原创 卷积神经网络 - AlexNet各层详解

AlexNet的层次化设计,使得 AlexNet 能够逐层提取从简单边缘到复杂图形的特征,同时结合归一化、池化和 Dropout 技术,有效提升了训练速度和泛化能力,成为推动深度学习发展的重要里程碑。本文我们来理解AlexNet各层的参数设置以及对应的作用。

2025-03-25 18:43:38 2194

原创 卷积神经网络 - AlexNet

本文我们来学习cnn经典网络之AlexNet,AlexNet是深度学习领域具有里程碑意义的卷积神经网络(CNN),由Alex Krizhevsky等人于2012年提出,并在ImageNet图像分类竞赛(ILSVRC)中以显著优势夺冠,推动了深度学习在计算机视觉中的广泛应用。

2025-03-25 18:03:14 2196

原创 卷积神经网络 - 关于LeNet-5的若干问题的解释

LeNet-5 是最早期的卷积神经网络之一,主要用于手写数字识别,其关键要点包括:输入预处理、局部特征提取、下采样(池化)、逐层特征抽象、全连接与分类。结合上一博文所学的LeNet-5,本文我们来围绕LeNet-5的一些问题点进行解释,以便进一步加深理解。

2025-03-24 14:46:48 1378

原创 卷积神经网络 - LeNet-5

LeNet-5 是卷积神经网络(CNN)的早期代表之一,由 Yann LeCun 等人在 1998 年提出,主要用于手写数字识别任务(如 MNIST 数据集)。 本文我们从其网络结构、各层功能以及整体设计思想入手理解 LeNet-5。

2025-03-24 10:53:41 1845

原创 卷积神经网络 - 理解卷积核的尺寸 k×k×Cin​×Cout

当卷积神经网络(CNN)的输出通道数(即卷积神经网络的输出)为 Cout​ 时,卷积核的尺寸设计会从单核的 k×k×Cin 扩展为 四维张量,具体为 k×k×Cin×Cout。本文通过具体示例和直观解释说明其设计逻辑和意义。

2025-03-22 11:30:00 1510

原创 卷积神经网络 - 理解卷积核的尺寸 k×k×Cin

卷积神经网络中,每个卷积核的尺寸为 k×k×Cin​,这一设计的核心原因在于多通道输入的数据结构和跨通道特征整合的需求。本文我们专门针对卷积核的尺寸进行研究学习,了解其原理和始末。

2025-03-22 10:00:00 1220

原创 卷积神经网络 - 进一步理解反向传播

上一博文,我们学习了卷积神经网络的梯度和反向传播算法,本文我们来通过详细的推导和示例,结合卷积神经网络中卷积层与池化层(汇聚层)的反向传播过程,进一步加深对卷积神经网络的反向传播的理解。

2025-03-21 16:41:04 1716

原创 卷积神经网络 - 梯度和反向传播算法

在卷积网络中,参数为卷积核中权重以及偏置。和全连接前馈网络类似,卷积网络也可以通过误差反向传播算法来进行参数学习。本文我们从数学角度,来学习卷积神经网络梯度的推导和其反向传播算法的原理。

2025-03-21 15:54:11 1761

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除