宇日辰-CSDN博客

原创神经机器翻译中的模型集成：经验之谈

背景集成学习是一种联合多个学习器进行协同决策的机器学习方法，通过整合多个学习器的决策结果可以有效减小预测结果的方差与偏置，显著提升模型的泛化能力，达到比单学习器更好的效果。对于神经机器翻译中的集成学习，实验室李北师兄的论文《On Ensemble Learning of Neural Machine Translation》针对NMT中的模型集成进行了大量的实验对比。本人也在不同规模的数据集上进行了尝试，将经验总结如下。1 NMT中的模型集成方法在模型层面，有模型参数平均和预测结果融合两种方法，两种方

2021-08-27 13:03:29 894 5

原创使用fairseq从头开始训练一个中英神经机器翻译模型

前言由于毕设是做神经机器翻译相关，所以先尝试一下神经机器翻译的整个流程是非常有必要的。故将在news-commentary-v15语料上训练有监督中英NMT模型的整个流程，包括工具和数据的准备、数据的预处理、训练及解码等过程，以及过程中遇到的问题和解决方案记录在此，以供后期回顾，也希望能够给予别人一些帮助。附本人博客1 相关工具及目录结构1.1 相关工具除jieba是使用pip install安装外，其他几个工具都是建议直接克隆库到自己的用户目录中，方便使用其脚本(moses/subword-nmt

2021-01-21 09:37:07 20205 79

原创 RNN与其反向传播算法——BPTT(Backward Propogation Through Time)的详细推导

RNN及其变种是永恒的经典，有必要认真学习。遂推导了一下RNN的反向传播算法(BPTT)，记录在此。

2020-12-20 16:10:55 2515 3

原创良心免费算力平台——Google Colab使用记录

实验室服务器不让外网连了，发现没了算力啥都做不了。于是对比多个国内外算力平台，最终选择很良心的免费算力平台：Google Colab，记录一些使用技巧，以便今后科研之用。

2020-12-20 16:06:33 3961

原创深度学习中的梯度计算与反向传播推导（二）DNN中多样本反向传播的全矩阵方法推导

前言在DNN的反向传播算法中，几乎所有教材都只使用单个样本(一个特征向量)进行相关公式的推导，而多个样本(也就是mini-batch，即多个特征向量组成的矩阵)反向传播的全矩阵方法对于理解“多样本”这一概念是非常重要的。所以花了一点时间推导了一下并记录在此，便于记忆，同时希望能对别人有所帮助。0 几点说明该文章是我上一篇博客Back Propagation and Gradient Calculation in Deep Learning(单样本反向传播)的后续版本，写作风格、符号表示与上篇类似，请

2020-12-06 17:50:27 1024 1

原创神经网络适用于分类问题的最后一层-Softmax和交叉熵损失介绍及梯度推导

前言传统机器学习中两大经典任务就是回归与分类。分类在深度学习中也很常见，令我印象最深的是图像分类。当然，在NLP中，分类也无处不在。从RNN与其变体，到Transformer、Bert等预训练模型，只要涉及到在词表中挑选单词，就可以使用分类任务的思路来解决。在深度学习模型中，区分回归还是分类，往往只需要看最后一层的激活函数以及损失函数。这里有一个定式：凡是采用Softmax+CrossEntropyLoss\mathrm{Softmax+CrossEntropy Loss}Softmax+CrossEnt

2020-12-06 17:43:34 3831 1

原创一些基于新闻表示和用户表示的新闻推荐模型总结：NPA/ NAML/ LSTUR/ NRMS

前言上上上次组会研一学长汇报了一篇数据集文章：MIND: A Large-scale Dataset for News Recommendation，是微软为新闻推荐而发布的一个数据集。在听汇报时我发现这个数据集非常符合我的需求：首先，新闻推荐需要处理大量的文本信息，正与我未来方向(NLP)有较大关联新闻中包含着大量的实体，有利于探索基于知识(知识图谱)的推荐方法于是乎，我立马自己去找了这个MIND数据集，数据格式等就暂不介绍，有兴趣的可以自己去官网查看。在其论文中，微软官方实现了几个新闻推荐的

2020-11-16 15:51:08 9032 11

原创深度学习中的梯度计算与反向传播推导（一）DNN中单样本反向传播推导

前言这篇博客的初心 : 最近读的论文又用到LSTM了，发现对这些深度学习模型我还是只了解皮毛，不了解其底层原理(如参数的更新)，而我从接触深度学习开始就对反向传播充满了好奇，感觉这是个很难理解的事情。所以建立这篇博客慢慢从矩阵求导开始，慢慢推导所有深度学习模型的底层原理，从而加深自己的理解。这篇博客内容 : 包括部分深度学习所需数学知识，以及各种深度学习模型(DNN,RNN等)的原理推导。1 数学知识注: 在本博客中，所有向量x\bm{x}x默认都为列向量1.1 深度学习中几种常见的求导

2020-11-06 20:56:58 1104 2