深度学习
文章平均质量分 94
宇日辰
这个作者很懒,什么都没留下…
展开
-
使用fairseq从头开始训练一个中英神经机器翻译模型
前言由于毕设是做神经机器翻译相关,所以先尝试一下神经机器翻译的整个流程是非常有必要的。故将在news-commentary-v15语料上训练有监督中英NMT模型的整个流程,包括工具和数据的准备、数据的预处理、训练及解码等过程,以及过程中遇到的问题和解决方案记录在此,以供后期回顾,也希望能够给予别人一些帮助。附本人博客1 相关工具及目录结构1.1 相关工具除jieba是使用pip install安装外,其他几个工具都是建议直接克隆库到自己的用户目录中,方便使用其脚本(moses/subword-nmt原创 2021-01-21 09:37:07 · 18937 阅读 · 76 评论 -
RNN与其反向传播算法——BPTT(Backward Propogation Through Time)的详细推导
RNN及其变种是永恒的经典,有必要认真学习。遂推导了一下RNN的反向传播算法(BPTT),记录在此。原创 2020-12-20 16:10:55 · 2241 阅读 · 3 评论 -
良心免费算力平台——Google Colab使用记录
实验室服务器不让外网连了,发现没了算力啥都做不了。于是对比多个国内外算力平台,最终选择很良心的免费算力平台:Google Colab,记录一些使用技巧,以便今后科研之用。原创 2020-12-20 16:06:33 · 3676 阅读 · 0 评论 -
深度学习中的梯度计算与反向传播推导(二)DNN中多样本反向传播的全矩阵方法推导
前言在DNN的反向传播算法中,几乎所有教材都只使用单个样本(一个特征向量)进行相关公式的推导,而多个样本(也就是mini-batch,即多个特征向量组成的矩阵)反向传播的全矩阵方法对于理解“多样本”这一概念是非常重要的。所以花了一点时间推导了一下并记录在此,便于记忆,同时希望能对别人有所帮助。0 几点说明该文章是我上一篇博客Back Propagation and Gradient Calculation in Deep Learning(单样本反向传播)的后续版本,写作风格、符号表示与上篇类似,请原创 2020-12-06 17:50:27 · 879 阅读 · 1 评论 -
神经网络适用于分类问题的最后一层-Softmax和交叉熵损失介绍及梯度推导
前言传统机器学习中两大经典任务就是回归与分类。分类在深度学习中也很常见,令我印象最深的是图像分类。当然,在NLP中,分类也无处不在。从RNN与其变体,到Transformer、Bert等预训练模型,只要涉及到在词表中挑选单词,就可以使用分类任务的思路来解决。在深度学习模型中,区分回归还是分类,往往只需要看最后一层的激活函数以及损失函数。这里有一个定式:凡是采用Softmax+CrossEntropyLoss\mathrm{Softmax+CrossEntropy Loss}Softmax+CrossEnt原创 2020-12-06 17:43:34 · 3239 阅读 · 1 评论 -
深度学习中的梯度计算与反向传播推导(一)DNN中单样本反向传播推导
前言这篇博客的初心 : 最近读的论文又用到LSTM了,发现对这些深度学习模型我还是只了解皮毛,不了解其底层原理(如参数的更新),而我从接触深度学习开始就对反向传播充满了好奇,感觉这是个很难理解的事情。所以建立这篇博客慢慢从矩阵求导开始,慢慢推导所有深度学习模型的底层原理,从而加深自己的理解。这篇博客内容 : 包括部分深度学习所需数学知识,以及各种深度学习模型(DNN,RNN等)的原理推导。1 数学知识注: 在本博客中,所有向量x\bm{x}x默认都为列向量1.1 深度学习中几种常见的求导原创 2020-11-06 20:56:58 · 944 阅读 · 2 评论