Word Embedding (NLP)简述

博客介绍了Word Embedding的基本概念,它将词转化为向量表示,用于度量词语间的相似性,解决数据稀疏性并降低维度。通过词与词的相互关系,Word Embedding在不同维度上捕获了语义信息。
摘要由CSDN通过智能技术生成

最近一直在调研文本摘要,主题,图像标注和视频摘要方面的基础和相关论文,所以mark一下,积累知识的同时,也便于日后进行分析和总结,毕竟不是搞这个的,有点跨方向了,不过好歹也是机器学习。

我觉得我可以把博客写的系统点,但是我做不到,因为现在脑子里的知识体系不完备。。。所以往后的几篇都会以知识点的形式,一点一点逐一展开

1.Word Embedding

Word Embedding:词嵌入。最简单粗劣的理解就是:将词进行向量化表示,实体的抽象成了数学描述,就可以进行建模,应用到很多任务中,例如比较词语词之间的相似性,可以直接通过向量之间的余弦距离度量来确定。

例如一个词:“苹果”,将其表示成 [0.4, 0.5, 0.9, ...], “香蕉”:[0.3, 0.8, 0.1, ...]。如下图所示,相似的单词就会被投影成相似的角度。对应与one-hot的向量表示,如此表示方式,1.避免大量词汇的数据稀疏性,2.同时对数据进行了降维。3.句子级上的表示,加入了词与词之间的相互关系。

其实word嵌入是一种分布式的特征表述,向量的不同维度用来表征不同特征,不同维度上就代表着不同的语义。例如苹果和红旗都是红色的,苹果和香蕉都是水果。所以编码中编入的信息包含颜色和属性信息的话,则实质上往不同空间维度上投影,则语义相似性度量的结果是不一样的。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值