通俗理解word2vec

参考https://www.jianshu.com/p/471d9bfbd72f

 

假设词表中共有4万个词汇,现在知道第t个词前面的n-1个词,预估第t个词:首先将n-1 依据词表进行onehot编码得到n-1个 $1*4万$的稀疏向量(只有一个位置为1,其余为0), 然后为每一个词 随机初始化一个(1*K)维的词向量C,这n-1个词向量经过拼接/求和等操作得到一个1*K维的向量,然后再经过softmax 计算出第t个位置是此表中每一个词的概率,选出最大的最为结果 与label 比较计算损失函数,通过训练不断降低损失函数 就可以得到由onehot-->词向量 的 映射关系参数 和 上下文到单词出现的条件概率参数, 这样我们就可以依据映射关系参数得到每个词对应的词向量了。
Ref:L2阶段 L2项目阶段/0.自然语言处理基础%2B知识体系/NLP_basics/3.Language_model.ipynb

还不太清楚 词向量到最后输出的具体操作 对比

L2阶段 L2项目阶段/0.自然语言处理基础%2B知识体系/NLP_basics/3.Language_model.ipynb

https://www.jianshu.com/p/471d9bfbd72f

 

 

 

 

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值