论文笔记--Efficient Estimation of Word Representations in Vector Space

最新推荐文章于 2025-03-18 19:49:27 发布

Isawany

最新推荐文章于 2025-03-18 19:49:27 发布

阅读量632

点赞数

分类专栏：论文阅读文章标签：论文阅读 word2vec 语言模型 rnn nlp

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_38124427/article/details/131019047

版权

论文笔记--Efficient Estimation of Word Representations in Vector Space

1. 文章简介
2. 文章概括
3 文章重点技术
4. 数值实验
5. 文章亮点
6. 原文传送门
6. References

1. 文章简介

标题：Efficient Estimation of Word Representations in Vector Space
作者：Tomas Mikolov, Kai Chen, Greg Corrado, Jeffrey Dean
日期：2013
期刊：arxiv preprint

2. 文章概括

文章提出了两种Word2Vec模型(CBOW, Skip-gram)，可以在大量的语料库上快速训练出高质量的词向量。且Word2Vec的词向量不仅可以保持相似单词的词向量相近，还可以保持词向量之间的线性操作（如 $\approx Queen$ ）。
由于训练方法相比于传统的NNLM(Neural Network Language Model)更快，文章可以在更大的数据集上训练更高维度的词向量，从而词向量表达更丰富。数值实验表明Word2Vec得到的词向量质量更高（见第四节）。

3 文章重点技术

3.1 NNLM(Neural Network Language Model)

3.1.1 NNLM

Word2Vec的基本架构基于[1]提出的NNLM。所谓LM（Language Model，语言模型），即通过前面的token预测当前的token。如下图所示，在输入层，给定当前单词的上文n个单词，模型首先对每个单词进行编码。NNLM采用的编码方式为Table look-up，即通过预先定义的hash表对一些常见的token进行映射，使用时直接查找当前token在映射表 $\mathcal{C}$ 中对应的编码即可。得到当前时刻 $t$ 对应的 $N$ （对应图中的 $n$ )个上文的编码分别为 $C(w_{t-N}), \dots, C(w_{t-1})$ ，其中每个token的编码 $C_{t-i}\in \mathbb{R}^D, i = 1, \dots, N$

最低0.47元/天解锁文章

博客等级

码龄8年

89
原创

265
点赞

281
收藏

169
粉丝

关注

私信

热门文章

分类专栏

吴恩达ChatGPT系列课程学习 9篇
论文阅读 80篇

最新评论

论文笔记--Skip-Thought Vectors
Isawany: 你试试从这下呢 http://mirror.nubenum.de/www.cs.toronto.edu/~rkiros/models/
论文笔记--Skip-Thought Vectors
xhns123: 博主好，看你的论文笔记学到了很多。我去下载skip-thought模型的时候，发现github上开源的下载链接失效了，不知道你保存了吗？如果保存了能否给我发个压缩包，万分感谢。903695886@qq.com
论文笔记--Llama3 report
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
论文笔记--kNN PROMPTING: BEYOND-CONTEXT LEARNING WITH CALIBRATION-FREE NEAREST NEIGHBOR INFERENCE
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
论文笔记--Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks
Isawany: 已更正，感谢～again

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。