神经网络词向量模型之Word2Vec

Word2Vec是一种基于神经网络的词向量模型,通过CBOW和Skip-Gram方法将词汇映射到向量空间,以余弦相似度衡量词的相似性。Skip-Gram由中心词预测上下文词,CBOW则是用上下文词预测中心词。为了优化计算,引入了哈夫曼树减少softmax计算量,负采样则加速模型训练。词向量模型的核心目标是生成能够捕获词汇语义的向量,而非预测任务本身。
摘要由CSDN通过智能技术生成

1.前言

         基于one-hot对于词汇进行编码的方式着实让人头疼,又无奈。头疼的是占用空间很大,计算量大,无奈的是这么简单粗暴的方式居然一直流传到了现在。今天给大家介绍一款基于神经网络语言模型来生成词向量的神器。在上一篇神经网络语言模型中我们介绍过语言模型的工作方式,将输入通过嵌入层转换为向量,然后使用投影层把各向量拼接在一起,通过隐层,再进入输出层。所以输入层中就得到了词向量矩阵。语言模型的核心是去表达文本,生成文本。词向量只是其中的一个环节,数据预处理的一部分。今天我们要讲解的词向量模型恰恰相反,其核心是借助于语言模型来生成词向量。

2.Word2Vec总述

           如下图,其核心的思想是将词汇映射到向量空间中,使用向量之间的余弦距离来表示词汇之间点的相似度。如下图所示。

          

           Word2Vec包含两种生成向量的模型CBOW和Skip-Gram。如下所示,CBOW使用周围的词来预测中心的词,而Skip-Gram是用中心的词预测周围的词,其思想类似于Gram。下面我们来详细介绍一下。

          

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值