Deep learning
文章平均质量分 92
分享深度学习学习过程
helluy
graduate student,方向[NLP][ML][DL],学习+搬砖中,是个菜狗
展开
-
深度学习优化算法
优化算法梯度下降随机梯度下降小批量随机梯度下降冲量法Adam梯度下降随机梯度下降小批量随机梯度下降冲量法Adam在机器学习中,无论是回归还是分类,我们大部分的目标是优化损失函数使其最小,但如何让机器找到使损失函数最小的参数?根据微积分的知识我们知道在函数的极小值点附近,如果沿着函数梯度的方向行走,函数值是下降的:以线性回归问题为例(如下图),损失函数为二次函数。式中的a为学习率,当学习率较小的时候,权重梯度优化的速度较慢,损失每次变化的幅度较小,收敛到最小值点速度慢。反之学习率较大时,参数每次原创 2022-02-26 20:16:48 · 803 阅读 · 0 评论 -
Transformer结构与论文解读
transformer架构是 Google 团队在 17 年 6 月提出的 NLP 经典之作,由 Ashish Vaswani 等人在 2017 年发表的论文 Attention Is All You Need 中提出,最早使用在机器翻译中,在WMT 2014英德翻译任务中获得28.4个BLEU,比现有的最佳结果(包括集合)提高了2个BLEU,也打开了NLP领域预训练这一新范式。论文地址:[Attention Is All You Need](https://arxiv.org/pdf/1706.037原创 2022-01-11 19:23:40 · 1508 阅读 · 0 评论 -
注意力机制Attention Mechanism及论文
注意力机制源于对人类视觉的研究。在认知科学中,由于信息处理的瓶颈,人类会选择性地关注所有信息的一部分,同时忽略其他可见的信息,上述机制通常被称为注意力机制。例如在NLP中,当要捕捉一句话中词与词的关系时,如:当看到eating这个词时,我们更希望看到食物apple,而对颜色green并不在意,此时我们就可以使用注意力机制来衡量词之间的相关性。相比于序列模型,它能够通过矩阵运算实现并行化,提高效率。原创 2022-01-04 11:09:13 · 5972 阅读 · 0 评论 -
GRU与LSTM结构
由于原始的RNN会在每一次输入时堆叠之前的隐藏状态,所以在nlp中面对长句子时RNN往往会忘掉之前比较重要的信息,故隐藏转态的更新与保留需要控制,所以出现了门的概念,具有代表性的就是LSTM与GRU。原创 2021-12-24 16:59:57 · 2281 阅读 · 0 评论 -
ResNet结构与论文理解
ResNet残差快ResNet网络ResNet也被称为残差网络,是由何凯明为主的Microsoft Research的4位学者在2015年首次提出,获得了2015年ILSVRC分类任务的第一名,还在ImageNet检测、ImageNet定位、COCO检测和COCO分割的任务中获得了第一名。也可以说是卷积神经网络中最常用的网络之一,并深刻影响了后来的深度神经网络的设计,不仅在计算机视觉领域取得发展,在nlp领域如transformer等模型里也有应用。原论文地址:Deep Residual Learnin原创 2021-11-20 00:13:20 · 2558 阅读 · 0 评论 -
GoogLeNet v1结构
GooLeNetInception块GooLeNetGooLeNet是google2014年推出的深度神经网络模型,原论文名称为:Going deeper with convolutions,在沐神的书上也被叫做含并⾏连结的⽹络(主要由于Inception块中的结构)。该模型在2014年ILSVRC 2014比赛中竞赛中夺得冠军,14年之后也在不断发展,这里就介绍一下初始的版本。Inception块GooLeNet思想有点类似于VGG,先构建块,网络主要通过块的堆叠实现,不过这里的块与VGG块不同,称原创 2021-11-16 15:07:59 · 1984 阅读 · 0 评论 -
LeNet与AlexNet结构
LeNet与AlexNetLeNetAlexNetLeNetLeNet是经典的卷积神经网络,早期应用于手写数字识别。下面是模型的内部结构图:可以看到,模型主要是卷积、池化与全连接层组成。输入数据为一张32x32的灰度图(这里加了一点padding,原始手写数字的图片是28x28),输出为10维向量对应输入属于哪一类的概率。模型第一层为卷积层,输出结果为6x28x28的张量(可推得卷积核为6x5x5);第二层为pooling层,形状为2x2,这里的pooling的窗口不会重叠(与pytorch的poo原创 2021-11-05 13:11:23 · 897 阅读 · 0 评论 -
神经网络中的卷积层
卷积层两个原则具体计算步骤填充与步幅两个原则全连接的线性变换由于前一层和后一层所有的神经元之间都有一对一的连接关系,也称为稠密连接层(Dense Layer)。在实际的应用过程中,这种神经元之间关系的描述可能有许多冗余,对于神经网络模型的训练并不是很友好。为此,人们发明了一系列稀疏(Spare)的连接方式来描述前后两层神经元之间的连接关系,其中最有名的一个就是卷积层(Convolution Layer),对应的神经网络称为卷积神经网络(Convolution Neural Networks,CNN)。原创 2021-10-29 12:32:01 · 4306 阅读 · 0 评论 -
RNN基本思想及简单代码实现
RNNRNN简单介绍RNN基本思想举例RNN简单介绍计算机视觉中,识别图像时每张图片是孤立的,前一张图片识别的结果并不会对后一张图片识别的结果有影响。但现实生活中,许多数据带有明显的顺序,如NLP领域中,顺序是语言的基本特征,如“我吃苹果”与“苹果吃我”就是两个完全不同的意义,也可以从语言结构中得到信息,比如主语“我”后面接一个动词“吃”,“吃”后面往往接一个名词,这种隐藏在语言当中的序列关系如何提取与表示呢,人们找到了RNN(Recurrent Neural Network),一个高度重视序列信息的网原创 2021-09-27 23:16:36 · 3566 阅读 · 0 评论