word2vec-GLOVE模型 cs224n

最新推荐文章于 2023-11-07 15:48:04 发布

KODGV

最新推荐文章于 2023-11-07 15:48:04 发布

阅读量230

点赞数

分类专栏： cs224n

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_34661230/article/details/85958905

版权

本文探讨了word2vec的局限性，如忽视词序和全局统计信息，并介绍了GLOVE模型作为改进。GLOVE通过共现矩阵捕获语义和语法相似性，使用损失函数融合统计信息。尽管基于计数的方法适用于中小规模语料，但无法应对大规模数据，而预测模型如Skip-gram/CBOW虽慢，但在NLP任务中表现优秀。GLOVE模型的优缺点和存在的问题也进行了讨论。

摘要由CSDN通过智能技术生成

word2vec的缺陷：

没有考虑词序，因为它假设了词的上下文无关(把概率变为连乘)
没有考虑全局的统计信息

针对这两个方面，应该都有很多解决的方案，毕竟word2vec是很老的东西了。这里介绍了一个方法，改进全局的统计信息。

co-occurrence matrix

计算共现矩阵，作用于两个方面:

句子：捕捉语义和语法的相似性
文章：捕捉主题的相似性

基于窗口的共现矩阵
比如窗口半径为1，在如下句子上统计共现矩阵：

I like deep learning.
I like NLP.
I enjoy flying.

会得到：
在这里插入图片描述

这样会得到一个稀疏的向量空间，然后通过SVD的方法将它变成稠密矩阵。
用这个方法的缺点很明显，每次来新词都要重新全部SVD一次
改进
这个改进的方案，在任何需要用到词频的地方都会游泳

限制高频词的频次，或者干脆停用词
根据与中央词的距离衰减词频权重
用皮尔逊相关系数代替词频
优缺点
这些基于计数的方法在中小规模语料训练很快，有效地利用了统计信息。但用途受限于捕捉词语相似度，也无法拓展到大规模语料。

而NNLM, HLBL, RNN, Skip-gram/CBOW这类进行预测的模型必须遍历所有的窗口训练，也无法有效利用单词的全局统计信息。但它们显著地提高了上级NLP任务，其捕捉的不仅限于词语相似度。

Glove模型

从看了一些论文来说，好像这是一个套路，就是在别人的基础上往损失函数里面加东西，A有特性，则构造损失函数使B具有同样的特性，就将AB融合。
Glove模型就是这样提出一个损失函数：

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

KODGV CSDN认证博客专家 CSDN认证企业博客

码龄8年

27: 原创

27万+: 周排名

173万+: 总排名

6万+: 访问

: 等级

696: 积分

5: 粉丝

42: 获赞

12: 评论

68: 收藏

私信

关注

热门文章

分类专栏

leetcode 6篇
cs224n 9篇
NLP 6篇
NLP竞赛 6篇
架构
BUG区 3篇
项目管理 2篇

最新评论

训练的LOSS一直为0
emergency_rose: 你的结论是对的，但是最后两句不对，只有一维输出的话，计算loss的时候，只会考虑true label=0的loss，也就是-log(1)，label=0的GT概率也是1的
训练的LOSS一直为0
Only~you233: 牛啊
训练的LOSS一直为0
流氓本性: 谢谢！
TypeError: __int__ returned non-int (type NoneType)
summer_leeD: 赞一个，onnx转tensorflow模型也遇到了这个问题，不能使用动态batch
OpenNER关系抽取代码阅读
wohushihaoren: 他的auc指标是sklearn计算出来的，还有一个大问题是保存计算图的时候，每保存一次图都会变大，数据大了就会超计算图2G的限制。

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。