2021-04-09

词向量推理
1.词向量
词向量是分布式的表示方法,它的长度是自定义的,可以计算语义的相似度
在word2vec中就是采用分布式表征,在向量维数比较大的情况下,每一个词都可以用元素的分布式权重来表示,因此,向量的每一维都表示一个特征向量,作用于所有的单词,而不是简单的元素和值之间的一一映射。这种方式抽象的表示了一个词的“意义”。
训练词向量:
skip-gram方法,基于目标词(输入词)预测上下文(输出词);
连续词袋(CBOW)方法,基于邻近词(输入词) 预测目标(输出词)。
CBOW方法:去除了上下文各词的词序信息,使用上下文各词的平均值。上下文词组成了输入层,每一个词都用one-hot形式来表示,如果词汇量是V,则每个词就表示成V维向量,相应的词对应元素被设置成1,其余的为0。
训练的目标是最大限度的观察实际输出词(焦点词)在给定输入上下文且考虑权重的条件概率,由于输入向量是用one-hot来表示的,与权重矩阵W1相乘就相当于简单的选择W1中的一行。
skip-gram方法:它使用单一的焦点词作为输入,经过训练然后输出它的目标上下文

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值