word2vec原理&代码详细全面总结

最新推荐文章于 2024-09-08 21:29:34 发布

牛小冲

最新推荐文章于 2024-09-08 21:29:34 发布

阅读量2.4k

点赞数 1

分类专栏：表示学习文章标签：深度学习

本文链接：https://blog.csdn.net/weixin_37665090/article/details/105890213

版权

表示学习：将研究对象的语义信息表示为稠密低维实值向量。在该低维向量空间中，2个对象距离越近则说明其语义相似度越高。
word2vec：2013年，由Google团队提出。word2vec 是一种词嵌入（word embedding）技术，即把一个词语转换成其对应的向量表达，进而方便计算机处理。word2vec是词嵌入技术发展的重要里程碑。

一、统计语言模型—必备基础知识

统计语言模型(Statistical Language Model)是自然语言处理的基础模型，是从概率统计角度出发，解决自然语言上下文相关的特性的数学模型。统计语言模型的核心就是判断一个句子在文本中出现的概率。

假定 $S$ 表示某个有意义的句子，由一连串特定顺序排列的词 $(\omega_{1}, \omega _{2}, \ldots, \omega_{n})$ 组成， $n$ 是句子的长度。将 $S$ 在文本中出现概率表示为 $P (S)$ ，则 $P(S)=P(\omega_{1}, \omega _{2}, \ldots, \omega_{n})$

利用条件概率公式：

$P(\omega_{1}, \omega _{2}, \ldots, \omega_{n})=P(\omega_{1})\cdot P(\omega_{1}|\omega_{2})\cdot P(\omega_{3}|\omega_{1},\omega_{2}) \ldots P(\omega_{n}|\omega_{1},\omega_{2} \ldots, \omega_{n-1})$