[机器学习]word2vec简单理解

  • ① 假设我们有10000个不重复的单词组成的语料库,同时也有这10000个单词租成的文章,事实上,语料库是从文中提取出来的。需要完成的一个非常简单的任务,即输入任意一个单词,输出其附近最有可能的一个单词,或者最有可能的n个单词;
  • ②这个问题不难理解,就是通过输入监督学习的样本(x:单词,y:附近的一个单词)从而得到一个全连接网络的模型(甚至都用不到RNN,因为一次只输入一个单词),训练完成后,输入任意一个单词,输出所有其他单词在上面的分布即可(想要选几个最有可能的单词就选几个,反正所有概率都输出出来了。);
  • ③看似是一个熟悉的训练全连接网络的任务(输入特征值是one-hot的词向量,经过一层全连接网络+一层softmax的输出层,来实现“预测”最有可能的词(事实上这里说不上预测,神经网络在这里的作用只是输学习到的内容而已),但实际上,我们真正需要的,并不是最终的结构,因为没有意义,完全可以编一个其他非神经网络程序实现这个任务,无非就是搜索出所有单词,统计其附近的单词量而已。我们实际想要的是第一个隐藏层的权重矩阵,那个矩阵中的每一行实际上就对应了一个词向量(训练好以后),因为意思相近的词语往往具有类似的上下文,即最后输出的分布是相近的,而分布又相当隐藏层权重(词向量)*输出层权重(输出的每个词的分布),所以,能够导致上下文相近这一个结果的唯一途径就是词向量本身是非常接近的,这样经过相同的矩阵变化后,输出的结果才有可能是相近的。这个就是词向量的主要作用,他背后的生成逻辑是:近似的词其在文章中上下文的词应该也是相近的=》在模型中最终输出相近的结果的上下文,其词向量也是相近的,即近义词,或者简单的单复数形式,进行时或者非进行时形式的词;
发布了164 篇原创文章 · 获赞 2 · 访问量 2万+
展开阅读全文

没有更多推荐了,返回首页

©️2019 CSDN 皮肤主题: 点我我会动 设计师: 上身试试

分享到微信朋友圈

×

扫一扫,手机浏览