Distributed Representations of Words and Phrases and their Compositionality论文笔记解读

基本信息

作者TomasMikolovdoi05 December 2013 Publication History
发表时间2013期刊NIPS
网址https://arxiv.org/abs/1310.4546

研究背景

1. What’s known 既往研究已证实
连续Skip - gram模型,不涉及密集矩阵乘法,是一种高效的学习高质量分布式向量表示的方法,它能捕获大量精确的句法和语义单词关系

2. What’s new 创新点
分层softmax的一个简单的替代方法——负采样。
解决罕见词和频繁词之间的不平衡——子抽样方法。

3. What’s are the implications 意义
提高了向量的质量和训练速度。

研究方法

1. Negative Sampling
简化的噪声对比估计(NCE)——负抽样(NEG)。NEG与Hierarchical softmax相比,该模型能够更快地训练频繁单词,并提供更好的向量表示。
负抽样和NCE的主要区别在于,NCE既需要样本,也需要噪声分布的数值概率,而负抽样只使用样本。
2. Frequent Words 子抽样方法
频繁的单词(例如In、the和a)提供的信息价值比罕见的词少。
解决罕见词和频繁词之间的不平衡,我们采用了一种简单的子抽样方法:将训练集中的每个单词wi丢弃,由公式计算概率在这里插入图片描述
3. Learning Phrases
两个词连续出现多,单独出现少,则很可能是短语。
基于统计方法进行打分,设定阈值选择短语。
在这里插入图片描述

结果与讨论

  1. 负抽样(NEG)可简单的替代Hierarchical softmax最大值。
  2. 子抽样方法可以加速学习,提高了罕见单词的学习向量的准确性。
  3. Skip-gram模型的有趣性质——简单的向量加法可产生有意义的结果:vec(“Germany”) + vec(“capital”) ≈ vec(“Berlin”)。

个人思考与启发

拓展学习:论文阅读 - Distributed Representations of Words
用来表示 word 的向量被称为 Embedding,因为这个词被嵌入到(embedded)了向量空间中。

重要图

文献中重要的图记录下来
图1:Skip-gram模型体系结构。训练目标是学习擅长预测附近单词的词向量表示

  • 4
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值