week6-Word Embedding

Word Embedding

资料list:

  • 理解 Word2Vec 之 Skip-Gram 模型 - 天雨粟的文章 - 知乎 https://zhuanlan.zhihu.com/p/27234078
  • [NLP] 秒懂词向量Word2vec的本质 - 穆文的文章 - 知乎 https://zhuanlan.zhihu.com/p/26306795
  • https://towardsdatascience.com/skip-gram-nlp-context-words-prediction-algorithm-5bbf34f84e0c
  • https://towardsdatascience.com/word2vec-skip-gram-model-part-1-intuition-78614e4d6e0b

什么是 Word2vec ?

Word2vec就是word embdding的一种方法,通俗的说,就是将结构化数据转换成非结构化数据(转换成数值形式)。

假设全世界所有的词语总共有 V 个,这 V 个词语有自己的先后顺序,假设『吴彦祖』这个词是第1个词,『我』这个单词是第2个词,那么『吴彦祖』就可以表示为一个 V 维全零向量、把第1个位置的0变成1,而『我』同样表示为 V 维全零向量、把第2个位置的0变成1。这样,每个词语都可以找到属于自己的唯一表示。

Word2Vec模型中,主要有Skip-Gram和CBOW两种模型。

Skip-Gram是给定input word来预测上下文。而CBOW是给定上下文,来预测input word。

Word2Vec的整个建模过程实际上与自编码器(auto-encoder)的思想很相似,即先基于训练数据构建一个神经网络,当这个模型训练好以后,我们并不会用这个训练好的模型处理新的任务,我们真正需要的是这个模型通过训练数据所学得的参数,例如隐层的权重矩阵——后面我们将会看到这些权重在Word2Vec中实际上就是我们试图去学习的“word vectors”。基于训练数据建模的过程,我们给它一个名字叫“Fake Task”,意味着建模并不是我们最终的目的。

训练模型的真正目的是获得模型基于训练数据学得的隐层权重。

Word2vec之Skip-gram

模型任务是给定句子中间的特定单词(输入单词),查看附近的单词并随机选择一个。网络将告诉我们词汇表中每个单词成为我们选择的“附近单词”的概率。例如,如果您为经过训练的网络提供输入词“苏维埃”,则“联盟”和“俄罗斯”等单词的输出概率将比“西瓜”和“袋鼠”等不相关的单词高得多。

img

接下来我们来看看如何训练我们的神经网络。假如我们有一个句子**“The dog barked at the mailman”。**

  • 首先我们选句子中间的一个词作为我们的输入词,例如我们选取“dog”作为input word;

  • 有了input word以后,我们再定义一个叫做skip_window的参数,它代表着我们从当前input word的一侧(左边或右边)选取词的数量。如果我们设置skip_window=2,那么我们最终获得窗口中的词(包括input word在内)就是**[‘The’, ‘dog’,‘barked’, ‘at’]**。skip_window=2代表着选取左input word左侧2个词和右侧2个词进入我们的窗口,所以整个窗口大小span=2×2=4。另一个参数叫num_skips,它代表着我们从整个窗口中选取多少个不同的词作为我们的output word,当skip_window=2,num_skips=2时,我们将会得到两组 (input word, output word) 形式的训练数据,即 (‘dog’, ‘barked’),(‘dog’, ‘the’)

    另一个例子是“The quick brown fox jumps over the lazy dog.”used a small window size of 2 just for the example.以蓝色突出显示的单词是输入单词。

在这里插入图片描述

  • 神经网络基于这些训练数据将会输出一个概率分布,这个概率代表着我们的词典中的

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值