小小鸟要高飞-CSDN博客

原创 moses(mosesdecoder)数据预处理&BPE分词&moses用法总结

mosesdecoder&BPE数据预处理moses数据预处理BPE分词moses数据预处理源码链接：https://github.com/moses-smt/mosesdecoder做机器翻译的小伙伴应该会moses很熟悉，这是一个很强大的数据预处理工具，虽然已经用了很多年了，但现在依然非常流行。很多人做数据预处理都会用到BPE算法，bpe算法太强大，30000个子词几乎可以表...

2020-01-16 13:42:26 10038 5

原创 pytorch张量(tensor)运算小结

pytorch张量运算张量的简介生成不同数据类型的张量list和numpy.ndarray转换为TensorTensor与Numpy Array之间的转换Tensor的基本类型转换（float转double，转byte等）torch.arange()、torch.range()、torch.linspace的区别：张量的重排（reshape、squeeze、unsqueeze、permute、tr...

2020-01-06 20:13:21 11761

原创 python&pytorch常用方法总结

hasattr()函数hasattr() 函数用于判断对象是否包含对应的属性。hasattr 语法：hasattr(object, name)参数：object – 对象。name – 字符串，属性名。返回值：如果对象有该属性返回 True，否则返回 False。forward() 的使用使用pytorch的时候，模型训练时，不需要使用forward，只要在实例化一个对象中传...

2019-12-30 13:59:57 2427 1

原创 Statistical Phrase-Based Translation

Statistical Phrase-Based Translation Procee摘要评估框架2.1 模型2.2 解码器学习短语翻译的方法3.1 Phrases from Word-Based Alignments3.2 Syntactic Phrases（句法短语）3.3 Phrases from Phrase Alignments这是基于短语的统计机器翻译中很经典的一篇文章。摘要我们...

2019-11-25 21:31:12 888 2

原创欧几里得范数（L2范数）

L1范数和L2范数我们应该经常接触，但是欧几里得范数可能有些人听着会有些陌生，乍一看以为是多么难的东西，其实欧几里得范数就是L2范数，只是叫法不同而已。L1范数L1范数是指向量中各个元素绝对值之和。L2范数（欧几里得范数）首先，明确一点，常用到的几个概念，含义相同。欧几里得范数（Euclidean norm） ==欧式长度 =L2 范数 ==L2距离Euclidean norm == ...

2019-11-08 16:51:26 52846 1

原创奇异值分解SVD

奇异值分解不管是在CV领域还是在NLP领域应用都特别广泛，关于该知识点的总结网上有很多版本，但是好多讲的不是很清楚，下面的这个链接讲的比较透彻，在此分享给大家，以节省在网上找资源的时间。SVD（奇异值分解）小结...

2019-11-07 12:44:01 148

原创隐马尔科夫模型HMM

下面的这篇文章很详细的介绍了隐马尔科夫模型HMM，希望读完之后能够对大家有所帮助。隐马尔科夫模型HMM

2019-11-04 15:00:51 140

原创线性代数基础总结

在计算机学科中，数学基础必不可少，尤其NLP中全部都是矩阵计算，所以线性代数的基础就变得尤为重要，下面是学习线性代数基础的两个链接，基础不好的同学可以学习一下。线性代数知识汇总麻省理工公开课学习笔记...

2019-11-04 14:56:01 601

原创 7类CNN小结

7类CNN基于空间利用的 CNN基于深度的 CNN基于多路径的 CNN基于宽度的多连接 CNN基于特征图（通道特征图）开发的 CNN基于通道（输入通道）利用的 CNN基于注意力的 CNN通过 1989 年 LeCun 处理网格状拓扑数据（图像和时间系列数据）的研究，CNN 首次受到关注。CNN 被视为理解图像内容的最好技术之一，并且在图像识别、分割、检测和检索相关任务上表现出了当前最佳性能。CN...

2019-11-04 14:46:49 1086 1

原创 2019年深度学习自然语言处理最新十大发展趋势

十大发展趋势NLP架构的趋势1. 以前的word嵌入方法仍然很重要2. 递归神经网络(RNNs)不再是一个NLP标准架构3. Transformer将成为主导的NLP深度学习架构4. 预先训练的模型将发展更通用的语言技能5. 迁移学习将发挥更大的作用6. 微调模型将变得更容易7. BERT将改变NLP的应用前景8. 聊天机器人将从这一阶段的NLP创新中受益最多9. 零样本学习将变得...

2019-11-04 14:32:11 984

原创预训练模型（X）---- 预训练模型现状及分析

预训练模型的现状及分析预训练方法发展基于词嵌入的预训练方法基于语言模型的预训练方法首先通过上图大家可以清楚的了解到预训练模型之间的前世今生。前面已经介绍了很多预训练模型，本文就前面的内容做一个总结分析。预训练的方法最初是在图像领域提出的，达到了良好的效果，后来被应用到自然语言处理。预训练一般分为两步，首先用某个较大的数据集训练好模型(这种模型往往比较大，训练需要大量的内存资源)，使模型训练到...

2019-11-04 14:06:54 3661

原创预训练模型（8）---- T5: Text-To-Text Transfer Transformer

论文链接：Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer代码链接：https://github.com/google-research/text-to-text-transfer-transformer其实在ELECTRA 之前我就看到了T5，这个模型可以用一个字来总结，那就...

2019-11-04 13:31:00 2574

原创预训练模型（7）---- ELECTRA

最近预训练模型的更新真的是让人眼花缭乱，效果一个比一个好，简直堪称神仙打架，我等吃瓜群众只好坐在小板凳上看热闹，时不时的喊上一声“好”。最近到处都能看到ELECTRA的身影，据说可以吊打Bert,今天我们就来看看它到底是何方神圣。ELECTRA是斯坦福SAIL实验室Manning组的工作，是目前为止效果最好的预训练模型，不仅效果比以前的预训练模型好很多，而且还借鉴了GAN的思想，还用到了强化学习...

2019-11-04 12:18:12 3700

原创 ubuntu系统下安装tensorflow、pytorch

安装tensotflow、pytorch更改下载源：（国外的服务器下载很慢）安装CUDA9.0安装cuDNN v7.0安装Anaconda卸载anaconda打开Jupyter Notebook:Anaconda虚拟环境安装tersorflow-gpu版本：卸载tensorflow安装pytorch更改下载源：（国外的服务器下载很慢）也可以不用系统去选择，手动选择China里面的源安装...

2019-10-22 16:04:25 704

原创 Revisiting Adversarial Autoencoder for Unsupervised Word Translation with Cycle Consistency and...

2019NAACL的一篇文章，个人觉得很好的一篇文章，将去噪自编码器和回译应用到词对齐的过程中，应用比较灵活。文章链接：Revisiting Adversarial Autoencoder for Unsupervised Word Translation with Cycle Consistency and Improved Training代码链接：https://ntunlpsg.g...

2019-10-17 20:11:49 303

原创 linux常用命令

linux常用命令其他编辑文件终端目录操作（路径）文件linux命令多而杂，很多命令使用的时候都需要百度才能找到，下面是我常用的一些命令，总结起来就不用到处去找了。其他sudo命令以系统管理者的身份执行指令查看电脑目前的环境变量： echo $PATH编辑文件vi /路径/文件名Page Up和Page Down键上下翻页按下Insert键，可以见到窗口左下角有“Insert”...

2019-10-15 11:34:03 181

原创集束搜索（beam search）和贪心搜索（greedy search）

最近读论文的时候看到文中经常用到集束搜索（beam search），可能很多人不懂这到底是个什么算法，其实很简单，顺便把贪心搜索（greedy search）也介绍一下。贪心搜索(greedy search)贪心搜索最为简单，直接选择每个输出的最大概率，直到出现终结符或最大句子长度。集束搜索(beam search)集束搜索是一种启发式图搜索算法，在图的解空间比较大的情况下，为了减少搜索...

2019-10-10 22:27:15 9933 4

原创用word2vec和fastText来生成word embedding

首先我们要知道Word2Vec包含了两种词训练模型：CBOW模型和Skip-gram模型。那么word2vec到底是要做一件什么事情呢？下面以CBOW为例进行讲解：其实word2vec可以分为两部分：模型训练通过模型获得word embedding训练过程如下：输入层：上下文单词的onehot向量。 {假设单词向量空间dim为V，上下文单词个数为C}。所有onehot分别...

2019-10-10 21:57:49 2569

原创预训练模型（6）---- MASS

MASS: Masked Sequence to Sequence Pre-training for Language Generation摘要引言模型结构统一的预训练框架（包含GPT和Bert）实验结果这是微软亚洲研究院在ICML2019的一篇文章，在NLP任务上超越了Bert、XLNet、XLM。不仅适用于有监督任务，还适用于无监督任务。而且框架结构非常灵活，可以根据自己的喜好随意调整，真的...

2019-10-10 14:15:51 4136

原创平行句挖掘Unsupervised Parallel Sentence Extraction with Parallel Segment......

Unsupervised Parallel Sentence Extraction with Parallel SegmentDetection Helps Machine Translation论文点摘要这是2019ACL德国慕尼黑大学的一篇文章。文章是从相近的语料中挖掘平行句，并不是主要做翻译任务，但此任务所挖掘的平行句是不是对翻译任务有所帮助？文章链接：Unsupervised Par...

2019-10-10 11:01:02 950

原创 Artetxe - 弱监督双语词嵌入学习Learning bilingual word embeddings with (almost) no bilingual data

@[TOC](Learning bilingual word embeddings with (almost) no bilingual data)这是2017ACL的一篇文章。这是一种弱监督的方法，使用了少量的平行语料来学习双语词嵌入。文章链接：Learning bilingual word embeddings with (almost) no bilingual data摘要双语词...

2019-10-10 11:00:27 1135

原创 Artetxe - 有监督双语词嵌入Learning principled bilingual mappings of word embeddings

Learning principled bilingual mappings of word embeddings while preserving monolingual invariance论文点摘要引言Learning bilingual mappings这是2016年ACL的一篇文章，有监督的双语词映射，不好理解，有时间再仔细看。文章链接：Learning principled bi...

2019-10-10 10:56:52 536

原创 Extract and Edit: An Alternative to Back-Translation for Unsupervised Neural Machine Translation

Extract and Edit: An Alternative to Back- Translation for Unsupervised Neural Machine Translation知识点摘要引言背景Extract-Edit方法总结这是2019NAACL的一篇文章。文本是在facebook的基础上做的后续工作，针对回译存在的问题，提出了提取-编辑方法来取代回译，取得了不错的效果。文...

2019-10-09 21:32:12 1197 1

原创 Improving Unsupervised Word-by-Word Translation with Language Model and Denoising Autoencoder

Improving Unsupervised Word-by-Word Translation with Language Model and Denoising Autoencoder知识点摘要引言Cross-lingual Word EmbeddingSentence Translation3.1 Context-aware Beam Search3.2 Denoising实验结果总结这是2...

2019-10-09 13:30:21 949

原创 Improved Zero-shot Neural Machine Translation via Ignoring Spurious Correlations

Improved Zero-shot Neural Machine Translation via Ignoring Spurious Correlations技术点摘要引言Degeneracy Issue of Zero-shot NMT改善方法这是2019ACL的一篇文章，是香港大学和facebook AI实验室合作完成的一篇文章。文章链接：Improved Zero-shot Neur...

2019-10-08 20:59:39 933

原创 Unsupervised Bilingual Word Embedding Agreement for Unsupervised Neural Machine Translation

Unsupervised Bilingual Word Embedding Agreement for Unsupervised Neural Machine Translation知识点摘要引言初步实验Train UNMT with UBWE Agreement这是2019ACL的一篇文章，探究了无监督的双语词嵌入和无监督神经机器翻译之间的关系。哈工大的一篇文章，感觉文章并没有什么实质性的内...

2019-10-08 18:59:29 766

原创 Multilingual Unsupervised NMT using Shared Encoder and Language-Specific Decoders

Multilingual Unsupervised NMT using Shared Encoder and Language-Specific Decoders知识点摘要引言本文方法这是2019ACL的一篇文章。本文借鉴《Unsupervised Neural Machine Translation》一文的思想，只是把两种语言之间的翻译改为四种语言之间的翻译。效果比较好而已。文章链接：M...

2019-10-08 14:37:42 792

原创 Unsupervised Pivot Translation for Distant Languages

Unsupervised Pivot Translation for Distant Languages论文点摘要引言相关工作Unsupervised Pivot TranslationLearning to Route（LTR）对比方法Experiments Design这是2019年ACL的一篇文章，是一个微软的实习生写的。文章主要解决远距离语言的翻译问题，是先将源语言先翻译为中间语言，然后...

2019-10-07 20:54:32 817

原创 Artetxe - 2019ACL - An Effective Approach to Unsupervised Machine Translation

An Effective Approach to Unsupervised Machine Translation知识点摘要引言本文无监督方法NMT hybridization（NMT杂交）实验结果结论和未来工作文章链接：An Effective Approach to Unsupervised Machine Translation知识点摘要虽然机器翻译传统上依赖大量的并行语料库，但最...

2019-10-07 16:55:50 1017 2

原创 Artetxe - 2018AAAI - Generalizing and Improving Bilingual Word Embedding Mappings.......

Generalizing and Improving Bilingual Word Embedding Mappings with a Multi-Step Framework of Linear Transformations知识点摘要这是2018AAAI的一篇文章。文章链接：Generalizing and Improving Bilingual Word Embedding Mappi...

2019-10-06 20:25:55 1082 2

原创 Artetxe - 2018EMNLP - Unsupervised Statistical Machine Translation

Unsupervised Statistical Machine Translation知识点摘要引言Cross-lingual n-gram embeddings本文无监督SMTIterative refinement总结和工作展望这是2018EMNLP上的一篇文章。文章链接：Unsupervised Statistical Machine Translation代码链接：https:...

2019-10-06 20:01:15 996

原创 Artetxe - 2018ACL - A robust self-learning method for fully unsupervised cross-lingual mappings...

A robust self-learning method for fully unsupervised cross-lingual mappings of word embeddings知识点摘要引言本文方法实施流程预处理初始化自学习结果分析本文是来自巴斯克地区大学发表于ACL 2018会议的文章，针对无监督跨语言映射词嵌入任务中初始化阶段中的不足，提出一种无监督的初始化方法，并结合一套强大的...

2019-10-06 17:03:15 1419

原创 Artetxe - 2019ACL - Bilingual Lexicon Induction through Unsupervised Machine Translation

Bilingual Lexicon Induction through Unsupervised Machine Translation知识点摘要介绍方法介绍这是2019年ACL的一篇文章，这篇是在facebook小哥第一篇文章的基础上做的改进，主要用来生成双语词典，效果更好一些。文章链接：Bilingual Lexicon Induction through Unsupervised Ma...

2019-10-06 15:42:52 1070

原创 Unsupervised Neural Machine Translation with Weight Sharing

Unsupervised Neural Machine Translation with SMT as Posterior Regularization知识点摘要介绍模型结构定向self-attention权重共享这是来自于中科院的的一篇文章，发表于2018年ACL。文章链接：Unsupervised Neural Machine Translation with Weight Sharin...

2019-10-05 20:02:58 1000

原创 Unsupervised Neural Machine Translation with SMT as Posterior Regularization

Unsupervised Neural Machine Translation with SMT as Posterior Regularization知识点摘要文本方法这是2019 AAAI 微软的一篇文章。文章链接：Unsupervised Neural Machine Translation with SMT as Posterior Regularization知识点使用了基于...

2019-10-05 17:12:55 985

原创 Tied Transformers: Neural Machine Translation with Shared Encoder and Decoder

Tied Transformers: Neural Machine Translationwith Shared Encoder and Decoder知识点摘要介绍with Shared Encoder and Decoder)知识点通过BPE或者word pieces算法实现源语言和目标语言端词汇共享（NMT常用方法）。摘要共享源语言和目标语言端词汇表和词嵌入已经成为NMT中...

2019-10-04 15:11:01 904

原创 Translating Translationese: A Two-Step Approach to Unsupervised Machine Translation

Translating Translationese: A Two-Step Approach to Unsupervised Machine Translation摘要方法介绍生成字典将源语言转换成TranslationeseTranslationese翻译为目标语言数据和参数实验结果这是2019年ACL上的一篇文章，是一篇关于无监督机器翻译的。摘要给出一个粗略的、逐字逐句的源语言解释，母...

2019-10-04 13:36:31 732 1

原创预训练模型（5）---- SpanBERT&RoBERTa&ERNIE2

比较小众的预训练模型1. SpanBERT2. RoBERTa3. ERNIE2本文主要介绍一些比较小众的预训练模型，这些模型不像Bert、XLNet等那么有影响力，都是在这些模型的基础上做的相关改进工作，但是这些工作可以引导我们学会如何优化模型，对我们的学习以及科研都会有很大的帮助。首先是Facebook的提出的两个预训练模型——SpanBERT和RoBERTa。1. SpanBERT论...

2019-10-03 16:03:29 2260 1

原创预训练模型（3）---- XLNet

预训练模型（3）

2019-10-02 18:10:05 1336 1

原创 Bert&XLNet&XLM等NLP模型架构如何快速实现？

GitHub上最火的NLP项目，标星13000+，现在迎来重大更新。项目链接：https://github.com/huggingface/transformers刚刚，抱抱脸（Hugging Face）团队，放出了transformers 2.0版本。一方面，实现了TensorFlow 2.0和 PyTorch 之间的深度互操作性。你可以在TPU上训练模型，然后再Pytorch上...

2019-10-01 21:48:38 2378

空空如也

空空如也