Word2Vec基础知识

1.概述
Word2Vec是从大量文本语料中以无监督的方式学习语义知识的一种模型,它被大量地用在自然语言处理(NLP)中。
是词向量最常用的表示方法之一


2.主要模型
https://static.leiphone.com/uploads/new/article/740_740/201706/594b306c8b3b1.png?imageMogr2/format/jpg/quality/90
1.>Skip-Gram模型
主要思想:
给定input Word 预测上下文

2.>CBOW模型
主要思想:
给定上下文预测input Word 

3.>过程
A.建立模型
思想:相似于自编码器(auto-encoder)
先基于训练数据构建一个神经网络,再学习获得参数
B.The Fake Task
a.选取input word
b.定义skip_windows参数n  会输出n组(input output)
c.输出概率分布

4.>模型细节
A.单词表示
构建词汇表,用one-hot编码(神经网络只能接受数值输入)
B.输出概率分布
softmax函数输出
C.隐层的权重矩阵(Weight Matrix)
提高计算效率:
https://static.leiphone.com/uploads/new/article/740_740/201706/594b322ae0c72.png?imageMogr2/format/jpg/quality/90
选择矩阵中对应的向量中维度值为1的索引行


3.优化
1.>对高频词抽样
A.思想:
删除高频率词有助于减少训练样本数
B.抽样
参数sample 值越大有越大的概率被删除

2.>负采样(negative sample)
A.局部更新权重,提高训练速度且改善所得到的词向量的质量
B.negative Word的选择
https://static.leiphone.com/uploads/new/article/740_740/201706/594b3b5516125.png?imageMogr2/format/jpg/quality/90
一元模型分布选择,词出现的概率越高越易被选择


4.效果
其能够发现词向量之间存在的线性关系
https://adeshpande3.github.io/assets/NLP12.png

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值