Word Embedding (NLP)简述

最新推荐文章于 2024-02-24 20:00:43 发布

joshuaxx316

最新推荐文章于 2024-02-24 20:00:43 发布

阅读量1.4w

点赞数 2

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/joshuaxx316/article/details/54926924

版权

博客介绍了Word Embedding的基本概念，它将词转化为向量表示，用于度量词语间的相似性，解决数据稀疏性并降低维度。通过词与词的相互关系，Word Embedding在不同维度上捕获了语义信息。

摘要由CSDN通过智能技术生成

最近一直在调研文本摘要，主题，图像标注和视频摘要方面的基础和相关论文，所以mark一下，积累知识的同时，也便于日后进行分析和总结，毕竟不是搞这个的，有点跨方向了，不过好歹也是机器学习。

我觉得我可以把博客写的系统点，但是我做不到，因为现在脑子里的知识体系不完备。。。所以往后的几篇都会以知识点的形式，一点一点逐一展开

1.Word Embedding

Word Embedding：词嵌入。最简单粗劣的理解就是：将词进行向量化表示，实体的抽象成了数学描述，就可以进行建模，应用到很多任务中，例如比较词语词之间的相似性，可以直接通过向量之间的余弦距离度量来确定。

例如一个词：“苹果”，将其表示成 [0.4, 0.5, 0.9, ...], “香蕉”：[0.3, 0.8, 0.1, ...]。如下图所示，相似的单词就会被投影成相似的角度。对应与one-hot的向量表示，如此表示方式，1.避免大量词汇的数据稀疏性，2.同时对数据进行了降维。3.句子级上的表示，加入了词与词之间的相互关系。

其实word嵌入是一种分布式的特征表述，向量的不同维度用来表征不同特征，不同维度上就代表着不同的语义。例如苹果和红旗都是红色的，苹果和香蕉都是水果。所以编码中编入的信息包含颜色和属性信息的话，则实质上往不同空间维度上投影，则语义相似性度量的结果是不一样的。

最低0.47元/天解锁文章

关注

2
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。