循环神经网络-独热编码+词向量Word Embedding

独热编码 :

一百个词一百维向量 一万个词一万维   ->高维

对于上图的解释,假设有一个包含 8 个次的字典 VV,“time” 位于字典的第 1 个位置,“banana” 位于字典的第 8 个位置,因此,采用独热表示方法,对于 “time” 的向量来说,除了第 1 个位置为 1,其余位置为 0;对于 “banana” 的向量来说,除了第 8 个位置为 1,其余位置为 0。

缺点:1)高维的

2)稀疏

3)硬编码    对于独热表示的向量,如果采用余弦相似度计算向量间的相似度,可以明显的发现任意两者向量的相似度结果都为 0,即任意二者都不相关,也就是说独热表示无法解决词之间的相似性问题。

Word Embedding词向量的引入

优点:1)低维的

2)稠密

3)从data中学习

左侧是独热向量 结果是词向量  中间矩阵Q是不断学习的出来的,明显看出这是一个降维(5D->3D)的过程,

上图所示有一个 5*3的矩阵 Q,这个矩阵 Q 包含 5 行,

 Q 的内容也是网络参数,需要学习获得,训练刚开始用随机值初始化矩阵 Q,当这个网络训练好之后,矩阵 Q 的内容被正确赋值,每一行代表一个单词对应的 Word embedding 值。


 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值