NLP
tomeasure
一个立志于用编程满足自己吃货欲望的吃货
展开
-
GPT-1论文翻译
基本是机器翻译,也进行了基本的人工矫正,凑活看吧原论文:Improving Language Understanding by Generative Pre-Training摘要自然语言理解包括各种各样的任务,如文本蕴涵、问题解答、语义相似性评估和文档分类。虽然大量的未标记的文本语料库非常丰富,但是用于学习这些特定任务的标记数据却非常稀缺,这就使得接受过歧视性训练的模型难以充分执行。我们...翻译 2019-03-02 18:44:20 · 8524 阅读 · 0 评论 -
NNLM学习笔记
原论文: http://jmlr.org/papers/volume3/bengio03a/bengio03a.pdf其他资料:https://blog.csdn.net/sxhlovehmm/article/details/41252125NNLM(Neural Probabilistic Language Model),使用神经网络来对语言模型进行建模。语言模型的公式如下:P^(w...原创 2019-05-12 02:18:48 · 509 阅读 · 0 评论 -
评价语言模型性能的方式
评价语言模型性能的方式某个模型的交叉熵或困惑度越小,该模型的效果越好。交叉熵 (cross-entropy):计算公式:Hp(T)=−1WTlog2p(T)H_p (T) = -\frac{1}{W_T} log_2 p(T)Hp(T)=−WT1log2p(T)其中,WTW_TWT 是文本 TTT 的长度,以词为单位进行度量(包含句首标志与句尾标志);p(T)p(T)p(...原创 2019-04-02 23:20:00 · 537 阅读 · 0 评论 -
GPT-2 论文翻译
GPT-2 论文翻译基本是机器翻译,也进行了基本的人工矫正,凑活看吧原论文:《Language Models are Unsupervised Multitask Learners》原论文地址:https://d4mucfpksywv.cloudfront.net/better-language-models/language_models_are_unsupervised_multita...翻译 2019-04-01 18:11:31 · 11440 阅读 · 0 评论 -
从Word Embedding到Bert模型—自然语言处理中的预训练技术发展史
从Word Embedding到Bert模型—自然语言处理中的预训练技术发展史(转)本文的主题是自然语言处理中的预训练过程,会大致说下NLP中的预训练技术是一步一步如何发展到Bert模型的,从中可以很自然地看到Bert的思路是如何逐渐形成的,Bert的历史沿革是什么,继承了什么,创新了什么,为什么效果那么好,主要原因是什么,以及为何说模型创新不算太大,为何说Bert是近年来NLP重大进展的集大...原创 2019-03-31 23:48:46 · 237 阅读 · 0 评论 -
BERT-论文翻译
BERT:预训练的深度双向 Transformer 语言模型Jacob Devlin;Ming-Wei Chang;Kenton Lee;Kristina ToutanovaGoogle AI Language{jacobdevlin,mingweichang,kentonl,kristout}@google.com摘要我们提出了一种新的称为 BERT 的语言表示模型,BERT 代表来自...转载 2019-03-31 17:58:45 · 6415 阅读 · 1 评论 -
注意力机制在NLP问题中的介绍与调查-论文翻译
基本是机器翻译,也进行了基本的人工矫正,凑活看吧原论文:《An Introductory Survey on Attention Mechanisms in NLP Problems》链接:https://arxiv.org/abs/1811.05544论文时间:2018年摘要首先源于人类直觉,后来适用于机器翻译以进行自动tokens对齐,注意机制,一种可用于根据每个元素分配的重...翻译 2019-03-29 16:27:53 · 2922 阅读 · 0 评论 -
ResourceExhaustedError (see above for traceback): OOM when allocating tensor with shape[16,77,3072]
跑模型的时候出现了下面的错误(太长了,所以只保留了有用的关键信息)。在网上得知,出现这种错误的原因可能是显存空间不够,这有可能是使用的batch_size过大或者显卡被其他服务占用引起的。之后我查看了一下源码,偶然间发现代码里使用的n_gpu的默认值是4,我将其修改为1并重新运行代码之后,代码被成功执行。结合网上搜索到的资源和我的这次试验,总结一下出现这个问题的原因:batch_size太...原创 2019-03-16 19:23:44 · 4476 阅读 · 4 评论 -
OSError: [E050] Can't find model 'en'. It doesn't seem to be a shortcut link, a Python package or a
OSError: [E050] Can’t find model ‘en’. It doesn’t seem to be a shortcut link, a Python package or a valid path to a data directory.问题描述:Namespace(afn='gelu', analysis=True, attn_pdrop=0.1, b1=0.9, b...原创 2019-03-15 20:10:29 · 9367 阅读 · 7 评论 -
Transformer论文翻译
基本是机器翻译,进行了简单的人工修正,凑活看吧原论文: Attention Is All You Need摘要主要的序列转导模型是基于复杂的循环或卷积神经网络,包括编码器和解码器。性能最好的模型还通过一个注意机制连接编码器和解码器。我们提出了一种新的简单网络结构,即Transformer,它完全基于注意机制,完全不需要递归和卷积。对两个机器翻译任务的实验表明,这些模型在质量上更优,同时更...翻译 2019-03-04 00:02:44 · 6443 阅读 · 5 评论 -
基于GPT的传统中国诗词生成-论文笔记
原论文:《GPT-based Generation for Classical Chinese Poetry》该论文使用GPT模型去生成中国传统诗词。模型:基于BERT源码实现的GPT预训练:8 Nvidia V100(16GB) GPUs for 4 epochs微调:使用自动回归语言模型训练数据:预训练:中国新闻语料微调训练:作者等人收集的开放可用的传统中国诗词...原创 2019-07-05 16:50:50 · 3176 阅读 · 2 评论