NLP入门学习路线 word2vec 原理分析

NLP和ML相关资料

ML
Awesome NLP
Word2vec blog
ML+Learning
图解word2vec

NLP

在这里插入图片描述
在这里插入图片描述

NLP主要研究方向

在这里插入图片描述

NLP流程

在这里插入图片描述

NLP学习

看了nlp的一般任务的流程,决定从embedding入手好好学习。

embedding

万物皆可embedding。已经忘记了是谁说的了,肯定有人说过。
为什么embedding,最终的目的是为了形成能够让计算机理解的形式。
那么one hot 也可以做到,为什么不用?
1.one hot确实是计算机可以理解的形式,但会引入维度灾难
2.one hot没法代表两个词之间的关系,比如like 和love应该是意思相近的词(中国人的视角),但是如果用one hot就没法度量了。
在这里插入图片描述
所以embedding的目的主要有以上两个。

word embedding

一下主要说明word2vec的原理,不涉及实现,主要在skipgram 以及负采样,且窗口大小均取为2。

word2vec
skipgram

在这里插入图片描述
用中心词去预测左边2【窗口大小】个词和右边两个词。
在这里插入图片描述
但是为了提高速度,参考上面最后一个链接,修改了一下模型,如下所示
在这里插入图片描述
输入数据就要重新构造,变化如下:
此时样本target都是1,模型肯定是学不出来东西的,所以需要负采样,即将非窗口内的word作为负样本统计出来在这里插入图片描述
具体做法需要再深入研究。

里面涉及的参数

embedding_size 一般1e1-1e2量级
窗口大小 一般2-15
负样本数量 一般5足够

在这里插入图片描述

  • 2
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值