自然语言处理_小小鸟要高飞的博客-CSDN博客

自然语言处理

关注

关注数：文章数：45 文章阅读量：141269 文章收藏量：585

作者: 小小鸟要高飞

小小学生，埋头科研，岂不快哉。

展开

moses(mosesdecoder)数据预处理&BPE分词&moses用法总结

mosesdecoder&BPE数据预处理moses数据预处理BPE分词moses数据预处理源码链接：https://github.com/moses-smt/mosesdecoder做机器翻译的小伙伴应该会moses很熟悉，这是一个很强大的数据预处理工具，虽然已经用了很多年了，但现在依然非常流行。很多人做数据预处理都会用到BPE算法，bpe算法太强大，30000个子词几乎可以表...

原创 2020-01-16 13:42:26 · 9929 阅读 · 5 评论
pytorch张量(tensor)运算小结

pytorch张量运算张量的简介生成不同数据类型的张量list和numpy.ndarray转换为TensorTensor与Numpy Array之间的转换Tensor的基本类型转换（float转double，转byte等）torch.arange()、torch.range()、torch.linspace的区别：张量的重排（reshape、squeeze、unsqueeze、permute、tr...

原创 2020-01-06 20:13:21 · 11733 阅读 · 0 评论
Statistical Phrase-Based Translation

Statistical Phrase-Based Translation Procee摘要评估框架2.1 模型2.2 解码器学习短语翻译的方法3.1 Phrases from Word-Based Alignments3.2 Syntactic Phrases（句法短语）3.3 Phrases from Phrase Alignments这是基于短语的统计机器翻译中很经典的一篇文章。摘要我们...

原创 2019-11-25 21:31:12 · 842 阅读 · 2 评论
隐马尔科夫模型HMM

下面的这篇文章很详细的介绍了隐马尔科夫模型HMM，希望读完之后能够对大家有所帮助。隐马尔科夫模型HMM

原创 2019-11-04 15:00:51 · 130 阅读 · 0 评论
2019年深度学习自然语言处理最新十大发展趋势

十大发展趋势NLP架构的趋势1. 以前的word嵌入方法仍然很重要2. 递归神经网络(RNNs)不再是一个NLP标准架构3. Transformer将成为主导的NLP深度学习架构4. 预先训练的模型将发展更通用的语言技能5. 迁移学习将发挥更大的作用6. 微调模型将变得更容易7. BERT将改变NLP的应用前景8. 聊天机器人将从这一阶段的NLP创新中受益最多9. 零样本学习将变得...

原创 2019-11-04 14:32:11 · 970 阅读 · 0 评论
预训练模型（X）---- 预训练模型现状及分析

预训练模型的现状及分析预训练方法发展基于词嵌入的预训练方法基于语言模型的预训练方法首先通过上图大家可以清楚的了解到预训练模型之间的前世今生。前面已经介绍了很多预训练模型，本文就前面的内容做一个总结分析。预训练的方法最初是在图像领域提出的，达到了良好的效果，后来被应用到自然语言处理。预训练一般分为两步，首先用某个较大的数据集训练好模型(这种模型往往比较大，训练需要大量的内存资源)，使模型训练到...

原创 2019-11-04 14:06:54 · 3618 阅读 · 0 评论
预训练模型（8）---- T5: Text-To-Text Transfer Transformer

论文链接：Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer代码链接：https://github.com/google-research/text-to-text-transfer-transformer其实在ELECTRA 之前我就看到了T5，这个模型可以用一个字来总结，那就...

原创 2019-11-04 13:31:00 · 2529 阅读 · 0 评论
预训练模型（7）---- ELECTRA

最近预训练模型的更新真的是让人眼花缭乱，效果一个比一个好，简直堪称神仙打架，我等吃瓜群众只好坐在小板凳上看热闹，时不时的喊上一声“好”。最近到处都能看到ELECTRA的身影，据说可以吊打Bert,今天我们就来看看它到底是何方神圣。ELECTRA是斯坦福SAIL实验室Manning组的工作，是目前为止效果最好的预训练模型，不仅效果比以前的预训练模型好很多，而且还借鉴了GAN的思想，还用到了强化学习...

原创 2019-11-04 12:18:12 · 3680 阅读 · 0 评论
Revisiting Adversarial Autoencoder for Unsupervised Word Translation with Cycle Consistency and...

2019NAACL的一篇文章，个人觉得很好的一篇文章，将去噪自编码器和回译应用到词对齐的过程中，应用比较灵活。文章链接：Revisiting Adversarial Autoencoder for Unsupervised Word Translation with Cycle Consistency and Improved Training代码链接：https://ntunlpsg.g...

原创 2019-10-17 20:11:49 · 292 阅读 · 0 评论
Extract and Edit: An Alternative to Back-Translation for Unsupervised Neural Machine Translation

Extract and Edit: An Alternative to Back- Translation for Unsupervised Neural Machine Translation知识点摘要引言背景Extract-Edit方法总结这是2019NAACL的一篇文章。文本是在facebook的基础上做的后续工作，针对回译存在的问题，提出了提取-编辑方法来取代回译，取得了不错的效果。文...

原创 2019-10-09 21:32:12 · 1152 阅读 · 1 评论
Improving Unsupervised Word-by-Word Translation with Language Model and Denoising Autoencoder

Improving Unsupervised Word-by-Word Translation with Language Model and Denoising Autoencoder知识点摘要引言Cross-lingual Word EmbeddingSentence Translation3.1 Context-aware Beam Search3.2 Denoising实验结果总结这是2...

原创 2019-10-09 13:30:21 · 939 阅读 · 0 评论
Improved Zero-shot Neural Machine Translation via Ignoring Spurious Correlations

Improved Zero-shot Neural Machine Translation via Ignoring Spurious Correlations技术点摘要引言Degeneracy Issue of Zero-shot NMT改善方法这是2019ACL的一篇文章，是香港大学和facebook AI实验室合作完成的一篇文章。文章链接：Improved Zero-shot Neur...

原创 2019-10-08 20:59:39 · 919 阅读 · 0 评论
预训练模型（6）---- MASS

MASS: Masked Sequence to Sequence Pre-training for Language Generation摘要引言模型结构统一的预训练框架（包含GPT和Bert）实验结果这是微软亚洲研究院在ICML2019的一篇文章，在NLP任务上超越了Bert、XLNet、XLM。不仅适用于有监督任务，还适用于无监督任务。而且框架结构非常灵活，可以根据自己的喜好随意调整，真的...

原创 2019-10-10 14:15:51 · 4123 阅读 · 0 评论
Unsupervised Bilingual Word Embedding Agreement for Unsupervised Neural Machine Translation

Unsupervised Bilingual Word Embedding Agreement for Unsupervised Neural Machine Translation知识点摘要引言初步实验Train UNMT with UBWE Agreement这是2019ACL的一篇文章，探究了无监督的双语词嵌入和无监督神经机器翻译之间的关系。哈工大的一篇文章，感觉文章并没有什么实质性的内...

原创 2019-10-08 18:59:29 · 760 阅读 · 0 评论
Artetxe - 有监督双语词嵌入Learning principled bilingual mappings of word embeddings

Learning principled bilingual mappings of word embeddings while preserving monolingual invariance论文点摘要引言Learning bilingual mappings这是2016年ACL的一篇文章，有监督的双语词映射，不好理解，有时间再仔细看。文章链接：Learning principled bi...

原创 2019-10-10 10:56:52 · 530 阅读 · 0 评论
Artetxe - 弱监督双语词嵌入学习Learning bilingual word embeddings with (almost) no bilingual data

@[TOC](Learning bilingual word embeddings with (almost) no bilingual data)这是2017ACL的一篇文章。这是一种弱监督的方法，使用了少量的平行语料来学习双语词嵌入。文章链接：Learning bilingual word embeddings with (almost) no bilingual data摘要双语词...

原创 2019-10-10 11:00:27 · 1119 阅读 · 0 评论
平行句挖掘Unsupervised Parallel Sentence Extraction with Parallel Segment......

Unsupervised Parallel Sentence Extraction with Parallel SegmentDetection Helps Machine Translation论文点摘要这是2019ACL德国慕尼黑大学的一篇文章。文章是从相近的语料中挖掘平行句，并不是主要做翻译任务，但此任务所挖掘的平行句是不是对翻译任务有所帮助？文章链接：Unsupervised Par...

原创 2019-10-10 11:01:02 · 918 阅读 · 0 评论
用word2vec和fastText来生成word embedding

首先我们要知道Word2Vec包含了两种词训练模型：CBOW模型和Skip-gram模型。那么word2vec到底是要做一件什么事情呢？下面以CBOW为例进行讲解：其实word2vec可以分为两部分：模型训练通过模型获得word embedding训练过程如下：输入层：上下文单词的onehot向量。 {假设单词向量空间dim为V，上下文单词个数为C}。所有onehot分别...

原创 2019-10-10 21:57:49 · 2555 阅读 · 0 评论
集束搜索（beam search）和贪心搜索（greedy search）

最近读论文的时候看到文中经常用到集束搜索（beam search），可能很多人不懂这到底是个什么算法，其实很简单，顺便把贪心搜索（greedy search）也介绍一下。贪心搜索(greedy search)贪心搜索最为简单，直接选择每个输出的最大概率，直到出现终结符或最大句子长度。集束搜索(beam search)集束搜索是一种启发式图搜索算法，在图的解空间比较大的情况下，为了减少搜索...

原创 2019-10-10 22:27:15 · 9486 阅读 · 4 评论
face - Phrase-Based & Neural Unsupervised Machine Translation

无监督神经机器翻译三Phrase-Based & Neural Unsupervised Machine Translation技术点主要思想整体流程设计细节神经机器翻译初始化词对齐语言模型迭代回译统计机器翻译Phrase-Based & Neural Unsupervised Machine Translation这是facebook小哥哥的第三篇文章，获得了EMNLP201...

原创 2019-09-27 23:12:23 · 2759 阅读 · 0 评论
Multilingual Unsupervised NMT using Shared Encoder and Language-Specific Decoders

Multilingual Unsupervised NMT using Shared Encoder and Language-Specific Decoders知识点摘要引言本文方法这是2019ACL的一篇文章。本文借鉴《Unsupervised Neural Machine Translation》一文的思想，只是把两种语言之间的翻译改为四种语言之间的翻译。效果比较好而已。文章链接：M...

原创 2019-10-08 14:37:42 · 783 阅读 · 0 评论
Unsupervised Pivot Translation for Distant Languages

Unsupervised Pivot Translation for Distant Languages论文点摘要引言相关工作Unsupervised Pivot TranslationLearning to Route（LTR）对比方法Experiments Design这是2019年ACL的一篇文章，是一个微软的实习生写的。文章主要解决远距离语言的翻译问题，是先将源语言先翻译为中间语言，然后...

原创 2019-10-07 20:54:32 · 782 阅读 · 0 评论
Artetxe - 2019ACL - An Effective Approach to Unsupervised Machine Translation

An Effective Approach to Unsupervised Machine Translation知识点摘要引言本文无监督方法NMT hybridization（NMT杂交）实验结果结论和未来工作文章链接：An Effective Approach to Unsupervised Machine Translation知识点摘要虽然机器翻译传统上依赖大量的并行语料库，但最...

原创 2019-10-07 16:55:50 · 987 阅读 · 2 评论
预训练模型（2）---- Transformer-XL&GPT2&XLNet

预训练模型

原创 2019-09-30 11:12:14 · 3325 阅读 · 0 评论
预训练模型（1）---- ELMO&GPT&Bert

预训练模型

原创 2019-09-30 11:08:11 · 2189 阅读 · 0 评论
通过BPE解决OOV问题----Neural machine Translation of Rare Words with Subword Units

Neural machine Translation of Rare Words with Subword Units动机和创新点BPE算法前面的两篇facebook的文章都提到了BPE（Byte Pair Encoding，双字节编码）算法，可能大家不太了解，今天通过这篇文章介绍一下BPE的具体原理。这是2016ACL关于NLP分词操作的论文，许多论文方法（例如BERT等）都将该方法应用到分词...

原创 2019-09-29 23:24:52 · 3907 阅读 · 1 评论
face - Cross-lingual Language Model Pretraining ---- XLM

神经机器翻译四

原创 2019-09-28 22:58:58 · 3094 阅读 · 0 评论
Artetxe - 2018ICLR - Unsupervised Neural Machine Translation

无监督机器翻译二（2）Unsupervised Neural Machine Translation技术点整体流程原文重构译文重构加噪&降噪类比结果Unsupervised Neural Machine Translation本文介绍无监督翻译的另一篇文章，其实这篇文章跟我介绍的《无监督机器翻译二》的那篇文章撞车了，两篇文章中的思路大体相同，只是具体的细节有些不同，两篇还都中了ICML...

原创 2019-09-26 18:36:01 · 2897 阅读 · 0 评论
Attention Is All You Need----Transformer

未完待续

原创 2019-09-22 15:05:50 · 6954 阅读 · 2 评论
Attention原理详解

说到Attention可能大家想到的是最经典的Attention模型，实际上Attention有很多变种，Attention也有很多种计算方法，包括近来大火的self-attention也是Attention的一种，下面我会由浅到深的介绍各种Attention机制，希望能够帮助大家理解。Attention是跟seq2seq模型一起用的，如果大家对seq2seq模型不了解的可以点击此链接了解其中的...

原创 2019-09-22 14:50:28 · 14923 阅读 · 6 评论
Seq2Seq模型及Attention机制

seq2seq模型seq2seq模型虽然简单，但是特别经典，它的出现可以说给整个NLP带来个翻天覆地的变化。网上已经有很多人做了相关的总结，但是翻看起来还是感觉有点乱，于是想自己总结一个版本，方便自己回忆，也希望所写的内容能给大家带来帮助。由于平时都是直接拿来用，不需要在原理方面做推敲，所以公式部分就不详细介绍了，感兴趣的可以自己去阅读论文，下面只介绍相关原理及应用。Seq2Seq，全称Seq...

原创 2019-09-21 19:17:35 · 13491 阅读 · 0 评论
face - Unsupervised Machine Translation Using Monolingual Corpora Only

无监督机器翻译二本文继续上一篇博文来总结facebook小哥哥的第二篇文章，上一篇是词级别的翻译，这篇是句子级别的翻译，这一篇是在上一篇的基础上继续做的工作，里面用到了上一篇的方法，所以没有看上一篇的建议先看一下上一篇文章的介绍。神经机器翻译模型神经机器翻译模型主要使用了seq2seq的方法，文中介绍了Encoder和Decoder的一些知识，这些都很基础，怀疑作者是在凑字数（哈哈哈，这么帅...

原创 2019-09-21 15:15:12 · 3316 阅读 · 0 评论
预训练模型（4）---- ALBert

预训练模型

原创 2019-09-30 11:16:02 · 8151 阅读 · 0 评论
Bert&XLNet&XLM等NLP模型架构如何快速实现？

GitHub上最火的NLP项目，标星13000+，现在迎来重大更新。项目链接：https://github.com/huggingface/transformers刚刚，抱抱脸（Hugging Face）团队，放出了transformers 2.0版本。一方面，实现了TensorFlow 2.0和 PyTorch 之间的深度互操作性。你可以在TPU上训练模型，然后再Pytorch上...

原创 2019-10-01 21:48:38 · 2371 阅读 · 0 评论
预训练模型（3）---- XLNet

预训练模型（3）

原创 2019-10-02 18:10:05 · 1267 阅读 · 1 评论
Artetxe - 2018AAAI - Generalizing and Improving Bilingual Word Embedding Mappings.......

Generalizing and Improving Bilingual Word Embedding Mappings with a Multi-Step Framework of Linear Transformations知识点摘要这是2018AAAI的一篇文章。文章链接：Generalizing and Improving Bilingual Word Embedding Mappi...

原创 2019-10-06 20:25:55 · 1005 阅读 · 2 评论
Artetxe - 2018EMNLP - Unsupervised Statistical Machine Translation

Unsupervised Statistical Machine Translation知识点摘要引言Cross-lingual n-gram embeddings本文无监督SMTIterative refinement总结和工作展望这是2018EMNLP上的一篇文章。文章链接：Unsupervised Statistical Machine Translation代码链接：https:...

原创 2019-10-06 20:01:15 · 991 阅读 · 0 评论
Artetxe - 2018ACL - A robust self-learning method for fully unsupervised cross-lingual mappings...

A robust self-learning method for fully unsupervised cross-lingual mappings of word embeddings知识点摘要引言本文方法实施流程预处理初始化自学习结果分析本文是来自巴斯克地区大学发表于ACL 2018会议的文章，针对无监督跨语言映射词嵌入任务中初始化阶段中的不足，提出一种无监督的初始化方法，并结合一套强大的...

原创 2019-10-06 17:03:15 · 1406 阅读 · 0 评论
Artetxe - 2019ACL - Bilingual Lexicon Induction through Unsupervised Machine Translation

Bilingual Lexicon Induction through Unsupervised Machine Translation知识点摘要介绍方法介绍这是2019年ACL的一篇文章，这篇是在facebook小哥第一篇文章的基础上做的改进，主要用来生成双语词典，效果更好一些。文章链接：Bilingual Lexicon Induction through Unsupervised Ma...

原创 2019-10-06 15:42:52 · 1049 阅读 · 0 评论
Unsupervised Neural Machine Translation with Weight Sharing

Unsupervised Neural Machine Translation with SMT as Posterior Regularization知识点摘要介绍模型结构定向self-attention权重共享这是来自于中科院的的一篇文章，发表于2018年ACL。文章链接：Unsupervised Neural Machine Translation with Weight Sharin...

原创 2019-10-05 20:02:58 · 932 阅读 · 0 评论

自然语言处理

作者: 小小鸟要高飞

moses(mosesdecoder)数据预处理&BPE分词&moses用法总结

pytorch张量(tensor)运算小结

Statistical Phrase-Based Translation

隐马尔科夫模型HMM

2019年深度学习自然语言处理最新十大发展趋势

预训练模型（X）---- 预训练模型现状及分析

预训练模型（8）---- T5: Text-To-Text Transfer Transformer

预训练模型（7）---- ELECTRA

Revisiting Adversarial Autoencoder for Unsupervised Word Translation with Cycle Consistency and...

Extract and Edit: An Alternative to Back-Translation for Unsupervised Neural Machine Translation

Improving Unsupervised Word-by-Word Translation with Language Model and Denoising Autoencoder

Improved Zero-shot Neural Machine Translation via Ignoring Spurious Correlations

预训练模型（6）---- MASS

Unsupervised Bilingual Word Embedding Agreement for Unsupervised Neural Machine Translation

Artetxe - 有监督双语词嵌入Learning principled bilingual mappings of word embeddings

Artetxe - 弱监督双语词嵌入学习Learning bilingual word embeddings with (almost) no bilingual data

平行句挖掘Unsupervised Parallel Sentence Extraction with Parallel Segment......

用word2vec和fastText来生成word embedding

集束搜索（beam search）和贪心搜索（greedy search）

face - Phrase-Based & Neural Unsupervised Machine Translation

Multilingual Unsupervised NMT using Shared Encoder and Language-Specific Decoders

Unsupervised Pivot Translation for Distant Languages

Artetxe - 2019ACL - An Effective Approach to Unsupervised Machine Translation

预训练模型（2）---- Transformer-XL&GPT2&XLNet

预训练模型（1）---- ELMO&GPT&Bert

通过BPE解决OOV问题----Neural machine Translation of Rare Words with Subword Units

face - Cross-lingual Language Model Pretraining ---- XLM

Artetxe - 2018ICLR - Unsupervised Neural Machine Translation

Attention Is All You Need----Transformer

Attention原理详解

Seq2Seq模型及Attention机制

face - Unsupervised Machine Translation Using Monolingual Corpora Only

预训练模型（4）---- ALBert

Bert&XLNet&XLM等NLP模型架构如何快速实现？

预训练模型（3）---- XLNet

Artetxe - 2018AAAI - Generalizing and Improving Bilingual Word Embedding Mappings.......

Artetxe - 2018EMNLP - Unsupervised Statistical Machine Translation

Artetxe - 2018ACL - A robust self-learning method for fully unsupervised cross-lingual mappings...

Artetxe - 2019ACL - Bilingual Lexicon Induction through Unsupervised Machine Translation

Unsupervised Neural Machine Translation with Weight Sharing