深度学习
文章平均质量分 88
意念回复
这个作者很懒,什么都没留下…
展开
-
深度学习学习率
学习率是训练神经网络的重要超参数之一,它代表在每一次迭代中梯度向损失函数最优解移动的步长,通常用 η 表示。它的大小决定网络学习速度的快慢。在网络训练过程中,模型通过样本数据给出预测值,计算代价函数并通过反向传播来调整参数。重复上述过程,使得模型参数逐步趋于最优解从而获得最优模型。在这个过程中,学习率负责控制每一步参数更新的步长。合适的学习率可以使代价函数以合适的速度收敛到最小值。Transformers之自定义学习率动态调整 - 知乎参考。原创 2023-05-24 16:10:01 · 3010 阅读 · 1 评论 -
Pytroch 模型权重初始化
权值初始化是指在网络模型训练之前,对各节点的权值和偏置初始化的过程,正确的初始化会加快模型的收敛,从而加快模型的训练速度,而不恰当的初始化可能会导致梯度消失或梯度爆炸,最终导致模型无法训练。原创 2023-05-18 11:29:55 · 2403 阅读 · 0 评论 -
cat boost
Score functions - Algorithm details | CatBoostcatboost原理_chencas的博客-CSDN博客_catboost原理初学CatBoost模型——特性、原理、目标编码、调参 - 山枫叶纷飞 - 博客园原创 2022-05-14 00:21:01 · 428 阅读 · 0 评论 -
N-BEATS
通用的block多,原因可能是需要更多的block去学习,而可解释性的方法中添加了很多先验知识。[论文精读] N-BEATS:对可解释时序预测的神经基础扩展分析_哔哩哔哩_bilibili【论文分享】N-BEATS: 神经网络底层扩展分析,用于可解释的时间序列预测。_哔哩哔哩_bilibili...原创 2022-05-10 15:54:27 · 1483 阅读 · 0 评论 -
TCN(Temporal Convolutional Network,时间卷积网络)
1 前言 实验表明,RNN 在几乎所有的序列问题上都有良好表现,包括语音/文本识别、机器翻译、手写体识别、序列数据分析(预测)等。 在实际应用中,RNN 在内部设计上存在一个严重的问题:由于网络一次只能处理一个时间步长,后一步必须等前一步处理完才能进行运算。这意味着 RNN 不能像 CNN 那样进行大规模并行处理,特别是在 RNN/LSTM 对文本进行双向处理时。这也意味着 RNN 极度地计算密集,因为在整个任务运行完成之前,必须保存所有的中间结果。 ...原创 2022-05-10 00:37:17 · 86073 阅读 · 15 评论 -
机器学习算法(三十):强化学习(Reinforcement Learning)
目录1 简介1.1 什么是强化学习1.2 强化学习的主要特点1.3 强化学习的组成部分2强化学习训练过程3强化学习算法归类3.1 Value Based3.2Policy Based3.3 Actor-Critic3.4 其他分类4EE(Explore & Exploit)探索与利用5 强化学习实际开展中的难点6 强化学习的实际应用6.1 自动驾驶6.2 游戏6.3 推荐系统7 Q-learning8 策略梯度...原创 2022-04-26 16:14:12 · 41715 阅读 · 0 评论 -
归一化方法 BN、LN、IN、GN、SN
目录1 概念2 图解3 公式4 Batch normalization和Layer normalization有什么区别?4.1为什么ML中用BN比较多?4.1.1 ML & batch normalization4.1.2 ML & layer normalization4.1.3WhyML&BN?4.2为什么NLP中用LN比较多?4.2.1NLP & batch normalization4.2.2NLP &am...原创 2022-04-25 14:37:10 · 2833 阅读 · 0 评论 -
转置卷积(Transposed Convolution)
转置卷积(Transpose Convolution),一些地方也称为“反卷积”,在深度学习中表示为卷积的一个逆向过程,可以根据卷积核大小和输出的大小,恢复卷积前的图像尺寸,而不是恢复原始值。1 卷积操作及转置卷积的定义1.1 卷积操作 对于一个输入大小为 的图像,卷积核大小为 : 计算输出的具体实现方法为矩阵乘法。 将卷积核表示为稀疏矩阵 每一行向量表示在一个位置的卷积操作,0填充表示...原创 2022-04-22 12:28:42 · 6440 阅读 · 0 评论 -
卷积神经网络中二维卷积核与三维卷积核有什么区别?
1一维卷积神经网络(1D-CNN) 一维卷积常用在序列模型、自然语言处理领域; 假设输入数据维度为8,filter维度为5,不加padding时,输出维度为4;如果filter的数量为16,那么输出数据的shape就是;2 二维卷积神经网络(2D-CNN) 二维卷积常用在计算机视觉、图像处理领域(在视频的处理中,是对每一帧图像分别利用CNN来进行识别,没有考虑时间维度的信息);输入是7帧的灰度图。...原创 2022-04-21 00:15:20 · 11175 阅读 · 3 评论 -
Xavier参数初始化方法
1 梯度消失与梯度爆炸这是一个深度学习领域遇到的老问题了,即使是现在,任何一个新提出的模型,无论是MLP、CNN、还是RNN,随着深度的加深,这两个问题变得尤为严重。梯度消失是指在深度学习训练的过程中,梯度随着链式求导逐层传递逐层减小,最后趋近于0,导致对某些层的训练失效; 梯度爆炸与梯度消失相反,梯度随着链式求导逐层传递逐层增大,最后趋于无穷,导致某些层无法收敛;2 Xavier方法接下来的推导基于假设:激活函数在0周围的导数接近1(比如tanh); 偏置项b初始化为0,期望为0原创 2022-04-19 23:03:15 · 5091 阅读 · 0 评论 -
机器学习算法(二十八):Gan (生成式对抗网络)
生成式对抗网络(GAN, Generative Adversarial Networks )是一种深度学习模型,是近年来复杂分布上无监督学习最具前景的方法之一。模型通过框架中(至少)两个模块:生成模型(Generative Model)和判别模型(Discriminative Model)的互相博弈学习产生相当好的输出。原始 GAN理论中,并不要求 G 和 D 都是神经网络,只需要是能拟合相应生成和判别的函数即可。但实用中一般均使用深度神经网络作为 G 和 D 。一个优秀的GAN应用需要有...原创 2022-03-20 12:02:03 · 10756 阅读 · 1 评论 -
机器学习算法(二十七):贝叶斯网络
目录1. 对概率图模型的理解2. 贝叶斯方法2.1 频率派观点2.2 贝叶斯学派2.3 贝叶斯定理2.4 应用:拼写检查3 贝叶斯网络3.1 贝叶斯网络的定义3.2贝叶斯网络的3种结构形式3.2.1 形式1:head-to-head3.2.2 形式2:tail-to-tail3.2.3 形式3:head-to-tail3.3贝叶斯网络的实例3.4 因子图3.4.1 因子图的定义3.4.2 Sum-product算法1. 对概率图模...原创 2022-03-19 19:42:06 · 4971 阅读 · 0 评论 -
LSTM反向传播求导
1 LSTM结构图和公式 将结构图转换为如下所示(将“用于极简”的说明反向传播),实际上当用于反向传播时,所有的箭头的方向都是需要反过来看。 图中τ 代表最后时刻。2 反向传播 tips2.1本文所有向量全为列向量 以最后时刻的 构造softmax函数。2.2 softmax层反向传播 公式(1)结论很简单,但实际上是 L 先对 a 求偏导然后再对 z 求偏导。2.3hadama...原创 2021-06-26 17:47:26 · 1523 阅读 · 2 评论 -
CNN的可视化 可解释性
Visualizing and Understanding Convolutional Network:https://blog.csdn.net/tina_ttl/article/details/52048765可视化来自卷积神经网络的特征:http://kvfrans.com/visualizing-features-from-a-convolutional-neural-network/深度学习:感受野、卷积,反池化,反卷积,卷积可解释性,CAM ,G_CAM,为什么使用CNN替代RN原创 2021-06-24 20:10:10 · 436 阅读 · 2 评论 -
Attention
注意力模型最近几年在深度学习各个领域被广泛使用,无论是图像处理、语音识别还是自然语言处理的各种不同类型的任务中,都很容易遇到注意力模型的身影。所以,了解注意力机制的工作原理对于关注深度学习技术发展的技术人员来说有很大的必要。1 人类的视觉注意力从注意力模型的命名方式看,很明显其借鉴了人类的注意力机制,因此,我们首先简单介绍人类视觉的选择性注意力机制。...原创 2021-06-12 20:59:12 · 1913 阅读 · 2 评论 -
门控循环单元(Gate Recurrent Unit,GRU)
GRU(Gate Recurrent Unit)是循环神经网络(Recurrent Neural Network, RNN)的一种。和LSTM(Long-Short Term Memory)一样,也是为了解决长期记忆和反向传播中的梯度等问题而提出来的。原创 2021-06-05 20:45:31 · 6524 阅读 · 4 评论 -
长短期记忆网络(Long Short-Term Memory networks, LSTM)
如何简单的理解LSTM——其实没有那么复杂:原创 2021-06-05 20:08:18 · 19837 阅读 · 1 评论 -
RNN BPTT算法推导
损失函数为交叉熵损失函数(二元交叉熵损失函数),输出的激活函数应该为sigmoid函数,隐藏层的激活函数为tanh函数。(二分类问题)https://blog.csdn.net/qq_36033058/article/details/107117030?utm_medium=distribute.pc_relevant.none-task-blog-2~default~BlogCommendFromBaidu~default-7.control&depth_1-utm_s...原创 2021-06-03 20:21:21 · 504 阅读 · 4 评论 -
循环神经网络(RNN)
吴恩达视频:https://www.bilibili.com/video/av66647398笔记:http://www.ai-start.com/dl2017/html/lesson5-week1.html原创 2021-05-29 20:33:49 · 2941 阅读 · 0 评论 -
吴恩达 卷积神经网络视频提到的网络
2.2 经典网络(Classic networks)2.2.1LeNet-5 LeNet-5的网络结构,假设你有一张32×32×1的图片,LeNet-5可以识别图中的手写数字,比如像这样手写数字7。LeNet-5是针对灰度图片训练的,所以图片的大小只有32×32×1。实际上LeNet-5的结构和我们上周讲的最后一个范例非常相似,使用6个5×5的过滤器,步幅为1。第一个卷积层,由于使用了6个过滤器,步幅为1,padding为0,输出结果为28×28×6,图像尺寸从32×32缩小到2...原创 2021-04-06 19:20:58 · 958 阅读 · 1 评论 -
卷积神经网络(CNN)
卷积神经网络百度百科:https://baike.baidu.com/item/%E5%8D%B7%E7%A7%AF%E7%A5%9E%E7%BB%8F%E7%BD%91%E7%BB%9C/17541100?fr=aladdin机器之心,从入门到精通:卷积神经网络初学者指南:https://www.jiqizhixin.com/articles/2016-08-01-3您需要了解的9篇深度学习论文(CNN理解第3部分):https://adeshpande3.github.i...原创 2021-03-27 18:40:26 · 11507 阅读 · 0 评论 -
激活函数(Activation Function)
深度学习领域最常用的10个激活函数,一文详解数学原理及优缺点:https://mp.weixin.qq.com/s/bleTRzA_1X3umR5UXSpuHg深度学习中几种常见的激活函数理解与总结:https://www.cnblogs.com/XDU-Lakers/p/10557496.html神经网络梯度消失和梯度爆炸及解决办法:https://blog.csdn.net/program_developer/article/details/80032376常用激活函...原创 2021-03-17 00:02:14 · 52216 阅读 · 10 评论 -
自相关函数与互相关函数
1 概念 相关函数是描述信号X(s),Y(t)(这两个信号可以是随机的,也可以是确定的)在任意两个不同时刻s、t的取值之间的相关程度。两个信号之间的相似性大小用相关系数来衡量。定义: 称为变量 X 和 Y 的相关系数。若相关系数 = 0,则称 X与Y 不相关。相关系数越大,相关性越大,但肯定小于或者等于1.。 相关函数分为自相关和互相关。自相关函数是描述随机信号 x(t) 在任意不同时刻 t1,t2 的取值之间的相...原创 2021-01-16 23:49:31 · 52445 阅读 · 1 评论 -
卷积
卷积将是过去所有连续信号经过系统的响应之后得到的在观察那一刻的加权叠加。如何通俗易懂地解释卷积?:https://www.zhihu.com/question/22298352“卷积”其实没那么难以理解:https://zhuanlan.zhihu.com/p/41609577?utm_source=com.tencent.tim...原创 2020-12-29 23:02:52 · 1541 阅读 · 1 评论