Embedding中word2vec原理和细节

本文深入探讨word2vec的两种模式——COBW和Skip-gram,以及两种优化方案——层次softmax和负采样。通过层次softmax和负采样解决高维计算复杂度问题,提高效率。此外,还介绍了重采样技术,用于优化高频和低频词的训练,以增强模型学习重要信息的能力。
摘要由CSDN通过智能技术生成

关于word2vec原理和结构总结为2+2+1的关系

2—>两种模式,COBW和Skip-gram

COBW:已知中间词向量求周围词向量
在这里插入图片描述
COBW的运行原理流程:
在这里插入图片描述

Skip-gram:已知周围词求中间词向量
在这里插入图片描述
在这里插入图片描述

2—>两种优化方案,层次softMax和负采样

由上图两个模型的流程可知,最后都是softmax求出词的概率最大时的参数,所以在实际情况下V的维数时很高的,所以在计算时复杂度很高,要求softmax要输出V个概率。
层次softmax:原理是把softmax多分类换为多个sigmoid

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值