word2vec原理&代码 详细全面总结

本文介绍word2vec必备基础知识,原理,结构,模型训练及代码。

表示学习:将研究对象的语义信息表示为稠密低维实值向量。在该低维向量空间中,2个对象距离越近则说明其语义相似度越高。
word2vec:2013年,由Google团队提出。word2vec 是一种词嵌入(word embedding)技术,即把一个词语转换成其对应的向量表达,进而方便计算机处理。word2vec是词嵌入技术发展的重要里程碑。

一、统计语言模型—必备基础知识

统计语言模型(Statistical Language Model)是自然语言处理的基础模型,是从概率统计角度出发,解决自然语言上下文相关的特性的数学模型。统计语言模型的核心就是判断一个句子在文本中出现的概率

假定 S S S表示某个有意义的句子,由一连串特定顺序排列的词 ( ω 1 , ω 2 , … , ω n ) (\omega_{1}, \omega _{2}, \ldots, \omega_{n}) (ω1,ω2,,ωn)组成, n n n是句子的长度。将 S S S在文本中出现概率表示为 P ( S ) P(S) P(S),则 P ( S ) = P ( ω 1 , ω 2 , … , ω n ) P(S)=P(\omega_{1}, \omega _{2}, \ldots, \omega_{n}) P(S)=P(ω1,ω2,,ωn)

利用条件概率公式:

P ( ω 1 , ω 2 , … , ω n ) = P ( ω 1 ) ⋅ P ( ω 1 ∣ ω 2 ) ⋅ P ( ω 3 ∣ ω 1 , ω 2 ) … P ( ω n ∣ ω 1 , ω 2 … , ω n − 1 ) P(\omega_{1}, \omega _{2}, \ldots, \omega_{n})=P(\omega_{1})\cdot P(\omega_{1}|\omega_{2})\cdot P(\omega_{3}|\omega_{1},\omega_{2}) \ldots P(\omega_{n}|\omega_{1},\omega_{2} \ldots, \omega_{n-1}) P(ω

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值