一文看懂自然语言处理语言模型 n-gram word-embedding CBOW Skip-gram word2vec glove解读

最新推荐文章于 2024-03-27 15:59:16 发布

HxShine

最新推荐文章于 2024-03-27 15:59:16 发布

阅读量1.9k

点赞数 1

分类专栏：算法 nlp

本文链接：https://blog.csdn.net/qq_16949707/article/details/105834755

版权

nlp 同时被 2 个专栏收录

97 篇文章 3 订阅

订阅专栏

算法

35 篇文章 0 订阅

订阅专栏

1.n-gram

自己理解:

n代表窗口长度，n-gram的思想就是先滑窗，然后统计频次，然后计算条件概率，你可以取前面n个的条件概率，不一定要取全部的，最后得到的是整个句子的一个概率，那这个概率可以代表句子的合理性。

详情见：
https://zhuanlan.zhihu.com/p/32829048
在这里插入图片描述

如何利用n-gram作为额外的特征呢？

例如:
我爱北京天安门

这样词就有各种组合了：
它的一到三gram为:
[我，爱，北京，天安门，我爱，我北京，我天安门，…，我爱北京，我爱天安门，…]就是不同的组合，然后每一个词对应onehot特征里面的1维。

那么原来的我爱北京天安门的特征就是根据这段语句生成的一到三gram的组合。
在这里插入图片描述
https://zhuanlan.zhihu.com/p/29555001

2 NNLM(Neural Network Language Model)

NNLM模型的构造输入是前n个字的onehot特征，输出是这段文字的条件概率，也就是通过学习这个条件概率来学习embedding。
在这里插入图片描述
中间有激活函数，用的激活函数是双曲正切

在这里插入图片描述
其实是一个开创性的创举，然后word2vec改了一下，让他更容易训练，训练更快了，去掉了激活函数，直接预测下一个词，感觉改得好简单啊。

3 word2vec

数据结构和算法——Huffman树和Huffman编码：https://blog.csdn.net/google19890102/article/details/54848262

3.1 分层softmax

https://www.cnblogs.com/guoyaohua/p/9240336.html
在这里插入图片描述

3.2 负采样

https://zhuanlan.zhihu.com/p/39684349

高频词抽样
负采样

4.Glove详解

看了之后一脸懵逼，实际情况是这样，因为word2vec是利用上下文特定长度窗口内的文本去训练一个词向量，这样每次看到的都是局部的信息，如果和全部词的信息利用起来呢？
$g l o v e 首先构造一个共线矩阵，这个矩阵通过一翻设计，可以衡量两个词之间共同出现的概率关系，然后类似于 w o r d 2 v e c ，去学习这个共线矩阵，这样得到的中间结果作为词向量，注意这里有两个词向量，都可以用，只是随机化参数不一样，最后可以取二者的平均，最后就是加了一个权重因子，来更好的对频次较高和较低的词做一些修正，具体详情如下：$
在这里插入图片描述
通俗易懂理解——Glove算法原理：
https://zhuanlan.zhihu.com/p/42073620
GloVe详解
http://www.fanyeong.com/2018/02/19/glove-in-detail/
nlp中的词向量对比：word2vec/glove/fastText/elmo/GPT/bert
https://zhuanlan.zhihu.com/p/56382372

其他参考链接:
https://www.cnblogs.com/guoyaohua/p/9240336.html
https://zhuanlan.zhihu.com/p/53425736
https://zhuanlan.zhihu.com/p/61635013
https://blog.csdn.net/bitcarmanlee/article/details/82291968

HxShine

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
一文看懂自然语言处理语言模型 n-gram word-embedding CBOW Skip-gram word2vec glove解读

1.n-gram自己理解:n代表窗口长度，n-gram的思想就是先滑窗，然后统计频次，然后计算条件概率，你可以取前面n个的条件概率，不一定要取全部的，最后得到的是整个句子的一个概率，那这个概率可以代表句子的合理性。详情见：https://zhuanlan.zhihu.com/p/32829048如何利用n-gram作为额外的特征呢？例如:我爱北京天安门这样词就有各种组...
复制链接

扫一扫