word2vec学习...

最新推荐文章于 2021-08-13 10:07:14 发布

rebirth_2020

最新推荐文章于 2021-08-13 10:07:14 发布

阅读量139

点赞数

分类专栏： NLP

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_25992377/article/details/90320402

版权

NLP 专栏收录该内容

21 篇文章 1 订阅

订阅专栏

第一次认真看..依然有很多看不懂，写一些当下的学习总结。

参考：

https://blog.csdn.net/itplus/article/details/37998797

基本的网络结构是输入层+投影层+隐藏层+输出层。

主要为：1. 基于ngram和 2. 基于神经网络的语言模型以及在神经网络的语言模型上改进为 3. CBOW和SKIP-gram的语言模型。

基于ngram的语言模型有一个大的前提，就是当前词的出现仅于上一个词或者上两个词(n-1)个词相关，即ngram。于是句子的概率，P(w1,w2,w3..wn)=p(w1)*p(w2|w1)*p(w3|w2)*..p(wn|wn-1)。只要得到了单词的词频，就可以通过词频来计算句子的可能性。

而基于神经网络的方法，主要思路就是对问题建模，找到一个目标函数，并进行优化，不断更新参数，通过最后得到的参数，对新的数据样本直接进行预测。

基于神经网络的语言模型的运算规模为投影层(n-1)*m,隐藏层为n(h)，输出层N【其中n为一个词的上下文中包含的词数通常<5，m为词向量的长度，为10-10^2的量级，nh用户指定，通常为10^2量级，N是语料词汇量的大小，通常为10^4-10^5】，运算主要几种在了隐藏层和输出层。

huffman树大致是，在越接近根节点的部分，节点(词汇)出现的频词越高，huffman树是一个二叉树，通过将softmax替换为层级的softmax可以极大地减小输出层的运算量，不再是需要有N(词汇量)大小的计算。

关于词向量，主要有两种框架，CBOW和skipGram，分别为通过上下文预测中心词，和通过中心词预测上下文。与参考文档中3的神经网络的方法，主要就是使用了层级的softmax或者使用负采样的方式进行训练。以CBOW为例，负采样就是认为w(1--k-1)的下一个单词w(k)为正样本，其他词为负样本。关键点是如何进行负采样，这块没看懂。skipGram的负采样没看懂。等以后有机会再看。

github上，手推笔记:https://github.com/mathCrazyy/NLP_task/tree/master/LLP_task4

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
word2vec学习...

第一次认真看..依然有很多看不懂，写一些当下的学习总结。参考：https://blog.csdn.net/itplus/article/details/37998797基本的网络结构是输入层+投影层+隐藏层+输出层。主要为：1. 基于ngram和 2. 基于神经网络的语言模型以及在神经网络的语言模型上改进为 3. CBOW和SKIP-gram的语言模型。基于ngram的语言模型...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。