word2vec论文翻译(5000字)

最新推荐文章于 2024-08-16 15:57:51 发布

littlehaes

最新推荐文章于 2024-08-16 15:57:51 发布

阅读量8.6k

点赞数 7

分类专栏：随笔文章标签： word2vec翻译

本文链接：https://blog.csdn.net/littlehaes/article/details/80639078

版权

本文详细翻译了Mikolov的word2vec论文，探讨了连续词袋模型和Skip-gram模型，展示了词向量如何捕捉词汇间的语法和语义关系。实验结果表明，通过简单的代数运算，可以揭示词与词之间的微妙联系，为自然语言处理应用提供了强大工具。

摘要由CSDN通过智能技术生成

Welcome To My Blog
毕设要求翻译5000外文，于是翻译了Mikolov提出word2vec的那篇：Efficient Estimation of Word Representations in Vector Space，标题序号，公式序号，图名称均与原论文一致
向量空间中词表示的有效估计

摘要

我们提出了两个新颖的模型架构用来计算大规模数据集中的连续词向量表示。计算得出的结果通过词相似任务进行衡量。通过将这些结果和目前为止表现最好的基于不同类型的神经网络的方法进行对比后发现，该方法的精度得到大幅度提升，并且计算成本要小得多。举例来说，这个方法用了不到一天的时间从含有16亿个词的数字集中训练出了高质量的词向量。不仅如此，用这些词向量进行语法和语义上的词相似度任务均获得了最好的表现。

1 简介

当前很多的自然语言处理系统或技术都把词当做原子单元—词表示就是词在字典中的索引，这导致了在词和词之间不能描述相似度的问题。这样做是因为大规模数据集上应用简单模型得到的结果优于在小规模数据集上应用复杂模型的结果，具体表现在：简单性，鲁棒性，可观测性这三方面。一个具体的例子是广为流传的N元模型（N-gram），它用于统计语言模型中。今天，实际上它可能训练任何数据集（万亿级别的词）。
然而，简单模型在很多任务上都有限制。比如说：用于自动语音识别的相关域内数据量是有限的—结果往往由高质量转录的语音数据的规模决定（通常是百万级别的词）。在机器翻译中，各种各样现存的语料仅仅包含不超过十亿级别的词汇量。因此，有些情况下，简单改进基本技术不会导致任何重大进展，我们必须关注更先进的技术。
伴随着近些年机器翻译的进展，在更复杂更大规模的数据集上训练模型成为了可能，而且这些方法比简单的模型效果更好。或许用词的分布式表示是最成功的概念，比如说基于神经网络的语言模型明显地优于N元模型。

1.1 论文的目标

该论文的主要目的就是提出了一个学习高质量词向量的技术，这个技术能够应用在十亿级别的数据集，百万级别的词汇量上。据我们所知，之前没有方法能从几百万的词当中成功地学习50维到100维之间的词向量。
我们使用了最近提出的方法并测试其产生的向量的质量，我们不仅仅希望相似的词之间距离更近，而且词有多种相似度。这在曲折语言的上下文中出现过，举例来说，名词可以有不同的尾缀，如果我们在原始向量空间的子空间中搜索一个名词，那我们应该可以找到具有相似尾缀的名词。
令人意外的是，词的表示的相似度比简单的语法规则更复杂。使用词偏移技术，在词向量上执行简单的代数运算，一个典型的例子是：King的词向量减去Man的词向量加上Woman的词向量的结果最接近Queen的词向量。
在本文中，我们试图通过开发新的模型体系结构来最大化这些向量操作的准确性，以保留词之间的线性规律性。我们设计了一个新的综合测试集用于测量语法和语义规则，并且结果显示许多这样的规律可以高准确度地学习到。此外，我们讨论训练时间和精度如何依赖于词向量的维数和训练数据的数量。