自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(58)
  • 收藏
  • 关注

原创 系统调试问题记录、修改+TODO

整体:1.页面元素定位尽量不用float,父子元素之间的相对定位用position left right来做比较好。2.div覆盖问题:用z-index设优先级,父元素relative。TO DO:这两个元素相互转换。3.选择哪种元素显示单个句子比较合适:label、input、textarea?数据传输过程要把数据转成一个整体的字符串===》后台在解码过程中要分句、句子长度记录、打包后传输、前台处理–>页面展示处理(动态添加和删除元素:多种方法:innerHTML,createElem

2020-05-17 23:52:47 685

原创 0429 SMT总结 Curriculum learning for MT

课程学习(Curriculum Learning)由Montreal大学的Bengio教授团队在2009年的ICML上提出,主要思想是模仿人类学习的特点,由简单到困难来学习课程(在机器学习里就是容易学习的样本和不容易学习的样本),这样容易使模型找到更好的局部最优,同时加快训练的速度。如何在将Curriculum learning用于MT?论文1:Dynamic Data Selection ...

2020-05-01 14:58:03 492

原创 AAAI 2020 阅读论文笔记

Towards Making the Most of BERT in Neural Machine Translation目的:如何更好的使用预训练模型?—>微调效果并不好;上一篇笔记中的方法将BERT embeddings作为encoder的初始化或者中间的嵌入比较适用于低资源的情况,在高资源情况下由于训练中的太多更新,会导致遗忘。方法:(1)Asymptotic Distilat...

2020-04-26 22:14:35 1141

原创 预训练模型增强机器翻译

预训练和微调,例如BERT,通过将知识从资源丰富的预训练任务转移到资源低/零资源的下游任务,在语言理解方面取得了巨大成功。然而,由于在神经机器翻译(NMT)中,由于双语任务的训练目标与单语预训练模型相差很大的问题,微调的改进相对较少。那么如何利用预训练模型来增强机器翻译呢?首先现有的方法大致可分为两类,第一类是更好地利用预训练模型,一类是设计新的预训练任务,主要是预训练Seq2Seq模型。IC...

2020-04-19 22:24:20 2303

原创 20200406-20200412 论文笔记

FastBERT- a Self-distilling BERT with Adaptive Inference TimeMotivation:保证效果的同时提升Bert的效率。样本有不同的难易程度,大模型一般在简单样本上出现过度计算的情况。self-distillation:不需要额外的预训练结构,teacher和student的输出基于同一个模型(backbone)其中,speed是...

2020-04-12 23:09:42 626

原创 20200323-20200329 阅读论文笔记

INMT: Interactive Neural Machine Translation Prediction交互式机器翻译界面,为翻译人员提供即时的提示和建议。方法:字符级别的搜索,带约束的beam search+基于距离的编辑算法对beam重排序。一边翻一边根据上下文给建议。我们的是翻完了进行修改。用键盘作为交互方式。An Interactive Machine Translati...

2020-03-29 20:26:18 516

原创 20200302-20200308 阅读论文笔记

Cross-Lingual Natural Language Generation via Pre-Training问题:语言模型训练需要大规模训练数据,限制了在资源较少的语言上的应用------>跨语言预训练,通过微调将单语言NLG监督转移到其他经过预先训练的语言。跨语言生成:(1)要求模型理解多语言输入文本,并生成多语言目标序列。(2)语言对与语言数量的平方成正比。(3)预测空间大。...

2020-03-08 20:45:37 292

原创 20200224-20200301 阅读论文

Compressive transformer for long-range sequence modelling问题:Transformer关注每一个时间步的computation cost以及保存大量记忆的storage cost。---->以TransformerXL(扔掉比较旧的记忆)为基点,将旧记忆进行压缩。方法:几个难理解的点:(1)额外设计的cost:attentio...

2020-03-01 18:28:09 518 1

原创 20200217-20200223阅读论文笔记

On the Discrepancy between Density Estimation and Sequence Generation问题:探究训练目标(log-likelihood)和实际文本生成评价指标(Bleu)之间的相关性关系。背景知识总结:资料:https://www.leiphone.com/news/201911/FQ1HdiHYBcr5EX7z.htmlAutoregr...

2020-02-23 22:30:55 1032 1

原创 20200209-20200216 阅读论文

1. Editable neural networks问题:如何在不改变其他samples的结果的情况下,修正已训练好的模型对某些特殊sample的错误结果。以往方式:(1)修改数据重训模型—》代价大(2)人工cache,重定相关sample的规则。—》对微小的差异不够鲁棒。论文提出的方法:实验及结果:只看论文在ML上的实验部分Edit function 优化tansformer...

2020-02-16 22:13:25 352

原创 论文笔记:Self-Regulated Interactive Sequence-to-Sequence Learning

Motivation1.主动强化学习的核心问题是量化reward information的长期价值,但一般假定了每一轮的每个动作的cost是固定的。2.即使有工作考虑了cost应该要变化,他们也没有考虑多种的feedback形式。Methodself-regulated interactive learningself-regulation的任务是最优的平衡human effort和ou...

2019-10-27 22:12:23 239

原创 论文笔记:Towards Linear Time Neural Machine Translation with Capsule Networks

Motivation1.传统的Enc-Dec模型,没有保留source sequence resolution(一种加深对长句子学习的特征)。2.带注意力的Enc-Dec模型,保留了源句的resolution,不需要把所有信息压缩 到一个固定的表示,但计算复杂度由∣S∣+∣T∣|S|+|T|∣S∣+∣T∣到了∣S∣×∣T∣|S|\times|T|∣S∣×∣T∣,当句子长度上涨,模型复杂度会上升...

2019-10-20 23:24:41 287

原创 论文笔记:Bridging the Gap between Training and Inference for Neural Machine Translation

Motivation1.训练过程中基于ground truth进行预测,但推理过程中,整个句子都由模型生成,predicted words被fed到模型,可能会造成错误积累。2.过度纠正问题。Methodoracle word: 预测词中的ground truth(要自己选出来)yj−1oracle与yj−1∗y^{oracle}_{j-1}与y^*_{j-1}yj−1oracle​与y...

2019-10-20 22:55:54 693

原创 CS224d Assignment Sentiment Analysis

import numpy as npimport randomfrom data_utils import *from q1_softmax import softmaxfrom q2_gradcheck import gradcheck_naivefrom q3_sgd import load_saved_paramsdef getSentenceFeature(tokens...

2019-07-28 21:04:36 150

原创 CS224d Assignment Word2Vec

Word2Vec 练习题yo^=P(o∣c)=exp(uoTvc)∑w=1Vexp(uwTvc)\widehat{y_o}=P(o|c)=\frac{exp(u_o^Tv_c)}{\sum^V_{w=1}exp(u_w^Tv_c)}yo​​=P(o∣c)=∑w=1V​exp(uwT​vc​)exp(uoT​vc​)​ooo:输出词汇索引ccc:中心词汇索引vcv_cvc​:中心词汇向量...

2019-07-28 21:03:57 194

原创 CS224d Assignment1 part2(Neural Network Basics)非代码部分

由图知计算过程为:①Z1=xW1+b1Z_1=xW_1+b_1Z1​=xW1​+b1​②隐藏层h=sigmoid(Z1)h=sigmoid(Z_1)h=sigmoid(Z1​)③Z2=hW2+b2Z_2=hW_2+b_2Z2​=hW2​+b2​④输出层y^=softmax(Z2)\widehat{y}=softmax(Z_2)y​=softmax(Z2​)损失函数:交叉熵...

2019-07-21 21:33:11 129

原创 CS224d Assignment1 part2(Neural Network Basics)代码部分

import numpy as npdef sigmoid(x): """ Compute the sigmoid function for the input here. """ ### YOUR CODE HERE f=1/(1+np.exp(-x)) ##sigmoid函数定义 ### END YOUR CODE ...

2019-07-21 21:32:23 135

原创 Demo 代码学习+基础学习

Demo框架1.前端:HTML+jQuery+ajax2.后端:asp.net的wcf service前端学习web服务器:Apache(开源);llS(微软的web服务器软件);Tomcat;NginxJQuery1.概念:一个JavaScript框架。简化JS开发:jQuery是一个快速、简洁的JavaScript框架,是继Prototype之后又一个优秀的JavaScrip...

2019-07-07 21:13:24 1173

原创 CS224d lecture10 GRU与NMT相关

1.GRUs在时间t处看到的词如何影响后面的n个词(即t+n处看到的)?反向传播中连续的矩阵乘法可能会造成梯度消失。下图是基本的循环神经网络中在时间序列上的传递过程。在门控单元的情况下,除了传统循环神经网络在时间序列上的连接,还会有其余短连接,如下图绿圈表示的连接,能够实现t时间直接影响t+x,在反向传播时就能计算t时间段对t+x时间段的影响,以此学习到长期的依赖关系。GRU具体实现...

2019-07-02 18:17:09 175

原创 CS224 树形递归神经网络

词袋模型树形递归神经网络模型人类语言是递归的吗?循环神经网络语言模型和递归神经网络语言模型对比图:递归神经网络模型是从下至上,而循环神经网络模型是不断从前缀得到信息往后执行。目前比较少使用递归神经网络模型的原因是,将一个句子构建成一个树形结构是一个确定性分类选择,任何进行分类选择的地方,都将成为使用反向传播学习模型的一个问题,将这种复杂性置入模型,会使得对GPU不友好,因为它阻碍了分布...

2019-07-02 18:16:48 2085 3

原创 (gated)RNN和LSTM实践注意的问题

1.初始化:把前一个cell隐藏状态乘起来对循环矩阵很有用,使用正交化方法很好;初始化的值一般设的小比较好,权重随机的初始化在0左右,但设置遗忘门的bias时,如果把bias设置为一个大小合适的正数效果会更好。2.结合动态算法(Adam,AdaDelta)比基础SGD更好。3.垂直方向使用dropout。...

2019-07-02 18:16:31 266

原创 Transformer:论文《Attention is all you need》+李宏毅课程

TransformerSeq2seq model with Self-attention在RNN中虽然用到了输入序列的全部信息,但是很难实现输入序列词的同时训练,在self-attention layer中,目标序列b1,b2,...,bib_1,b_2,...,b_ib1​,b2​,...,bi​中每一个都是基于全部输入序列而得到的,并且它们都是同时训练的。Transformer结构:...

2019-07-02 18:16:09 542

原创 CS224dlecture9 神经机器翻译和注意力机制

注意力机制传统的机器翻译模型在长句上的表现不好,与其使用编码器的最后一个隐层状态Y来生成目标语句,不如直接编码过程中所有的隐层编码向量,即源对应的所有编码状态都可以用来进行翻译工作了,因此我们在翻译任何词的时候,需要知道使用哪个编码器状态,注意力机制告诉我们源的哪一部分是用于下一步的翻译的,也就是建立了源和翻译输出的一种隐式的对应关系,...

2019-06-23 23:05:05 247

原创 Google's Multilingual Neural Machine Traslation System:Enabling Zero-Shot translation

支持多语言的翻译系统支持多种输入语言和多种输出语言的翻译系统。以往的方法:(1)多编码器多解码器方案:其中每一个编码器-解码器对对应一个源语言-目标语言对。(2)一种特定的源语言,不同的目标语言对应不同的解码器。(3)不同的源语言对应不同的编码器,各种目标语言共享一个解码器。谷歌的多语言神经机器翻译系统(1)使用单模型来完成不同源语言到不同目标语言的翻译任务,可以很容易的将其...

2019-06-23 23:03:22 706

原创 CS224d lecture08 GRU和LSTM

GRUGRU中含有更新门和重置门(计算中得到的最后形式是向量,通过将输入或隐状态相乘,重置门决定了如何把新的输入与之前的记忆相结合,更新门决定多少先前的记忆起作用。),重置门和更新门能够起到解决梯度消失问题的作用。更新门:zt=z_t=zt​=重置门:...

2019-06-23 23:03:02 161

原创 论文笔记:A Convolutional Encoder Model for Neural Machine Transltion

提出了一个基于卷积层的模型,

2019-06-16 22:16:34 613 1

原创 CS224d lecture07 RNN和语言模式 学习笔记

传统语言模型:基于前面序列的词预测接下来一个词。P(w1,...,wm)=∏i=1mP(wi∣w1,...,wi−1)P(w_1,...,w_m)=\prod^m_{i=1}P(w_i|w_1,...,w_{i-1})P(w1​,...,wm​)=i=1∏m​P(wi​∣w1​,...,wi−1​)计数模型:给定第一个词的情况下,如果想获知第二个词的概率,先合计这两个词在此排序中同时出现的...

2019-06-16 22:15:21 240

原创 CS224d 基于迁移的依存句法分析 学习笔记

将句子转化为依存解析树:查看句子的状态,并预知一项迁移,在利用贪心算法,再进行转移,直到得出一个完整的迁移序列,该迁移序列能够对句子的依存解析树进行独立编码。Syntax Net:语法分析器。(1)使用协同训练来影响未标记的数据。协同训练(Tri-training)针对没有足够的数据来完成任务而提出的解决方案:大量未标记的数据和两个高效的截然不同的依存解析器,当它们对一个句子的依存分析树...

2019-06-16 22:14:11 378

原创 CS22d lecture06 TensorFlow学习笔记

1.数值计算表示为计算图来进行,使用流式图作为深度学习框架主干。节点类型:(1)变量(2)placeholders(占位符):在执行时间才会接收值的节点。初始化时不分配任何值,仅仅分配一个数据类型,分配一种大小的张量.(3)数学操作节点:矩阵乘法,加法,激活函数等。代码实现:import tensorflow as tfimport numpy as np'model build...

2019-06-16 22:08:30 121

原创 论文学习(翁荣祥毕业论文)

1.存在的问题:双语数据的规模与神经网络的参数规模的不平衡,导致现有的神经机器翻译模型生成的向量表示无法包含有足够语言信息。2.基于规则的翻译方式->统计机器翻译(步骤如https://www.cnblogs.com/wuseguang/p/4072920.html1.语料预处理,生成双语分词之后的文件。2.词对齐。3.短语抽取。4.计算短语概率。5.最大熵调序。)->神经机器翻译...

2019-06-10 10:33:39 379

原创 CS224d lecture04

训练数据集:{xi,yi}i=1N\{x_i,y_i\}^N_{i=1}{xi​,yi​}i=1N​

2019-05-19 21:52:11 108

原创 论文笔记09 Google's Neural Machine Translation System:Bridging the Gap Between Human and ML

Google’s Neural Machine Translation System:Bridging the Gap Between Human and Machine Translation

2019-05-19 21:51:31 1885

原创 CS224d lecture03 学习笔记(有点难,之后要再看)

高级词向量表示回顾:skip-gramP(o∣c)=exp(uoTvc)∑w=1Vexp(uwTvc)P(o|c)=\frac{exp(u_o^Tv_c)}{\sum^V_{w=1}exp(u_w^Tv_c)}P(o∣c)=∑w=1V​exp(uwT​vc​)exp(uoT​vc​)​例子:I like deep learning and NLP.window 1: I like dee...

2019-05-17 14:41:35 226

原创 论文学习笔记08:IMT

基础知识总结(1)机器翻译技术背景:基于词的翻译模型->基于短语的翻译模型->基于句法的翻译模型->神经网络翻译模型。(2)译后编辑:通过人工直接修改机器翻译的自动译文来完成翻译。译后编辑是最简单的人机交互方式。优点:如果机器翻译的自动译文质量较高,人工修改量就比较少,这种方式可以有效提升译员的生产效率。缺点:当前的机器翻译系统对应的译文质量远未达到人工翻译场景的用户期...

2019-05-13 08:40:04 413

原创 Keras Demo

Keras是由纯python编写的基于theano/tensorflow的深度学习框架。``Demo:import numpy as npfrom keras.models import Sequentialfrom keras.layers.core import Dense,Dropout,Activationfrom keras.layers import Conv2D,Max...

2019-05-13 08:37:37 407

原创 机器学习(李宏毅)lecture05 CNN

Convolutional Nueral NetworkCNN适合做图像处理的原因1.一个神经元不需要看整张图来判断某个模式的存在。2.同一个模式可能出现在图片的不同地方,不需要训练不同的模型,神经元可以用同一种参数。3.可以对图像做下采样*(subsampling:1、使得图像符合显示区域的大小;2、生成对应图像的缩略图。)*,能减少模型要用的参数。CNN架构卷积层可以来处理上述原...

2019-05-05 22:33:18 538

原创 神经网络Python练习

用TensorFlow创建FNN神经网络模型,梯度下降采用Adagrad,使用dropout防止过拟合,尝试保存模型再调用的操作。import tensorflow as tfimport numpy as npimport pandas as pdimport matplotlib.pyplot as pltfrom sklearn import metrics#定义读取数据的函数...

2019-05-05 22:32:52 694

原创 SVR Demo

用Python Sklearn包构建SVR模型。from __future__ import divisionimport timeimport pandas as pdimport numpy as npfrom sklearn.svm import SVRfrom sklearn import metricsfrom sklearn.model_selection import ...

2019-04-28 21:34:28 737

原创 论文学习笔记05(Effective Approaches to Attention-based Neural Machine Translation)

Effective Approaches to Attention-based Neural Machine Translation

2019-04-28 21:24:38 267

原创 机器学习(李宏毅)lecture04( Introduction of DL)

Deep Learning

2019-04-28 20:30:21 95

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除