word2vec详解

关键字

语料 向量模型 文本 分词 词向量化 向量距离

一、word2vec的概念解释

word2vec是一种将单词转换为向量形式的工具。用于将文本的处理的问题简化为向量空间中的向量运算,通过计算向量空间上的距离来表示文本语义上的相似度。

word2vec在2018年之前比较主流,但随着Bert、GPT2.0的出现,地位有所下降。

二、word2vec的具体实现方法

+、独热 One-hot

简单来说就是借助词表,将词表中的所有词进行统一编码,每一个词在词空间中占据一个位置;
形如: “话筒”表示为 [0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 …]

向量的唯独是词表的大小,向量中只有一个维度的值为 1,其他为 0;

+、嵌入式 Embedding

不仅需要 词表,还需要 训练语料,根据每个词出现的上下文 Context,来训练语言模型;
不同的 语料库数据 和 不同的训练参数 训练出来的模型是不一样的;
Embedding 单词向量将单词映射到高维空间上的点,点之间的距离可以看作对应的两个词之间的距离,即两个词在语法、语义上的相似性;

1、CBOW - Continuous Bag-Of-Words Model 连续性的词袋模型

通过上下文来预测 当前值;相当于一句话中抠掉一个词,让你猜这个词是什么
在这里插入图片描述
从数学上看,CBoW模型等价于一个词袋模型的向量乘以一个embedding矩阵,从而得到一个连续的embedding向量。这也是CBoW模型名称的由来。

假如语料为一句话:Real dream is the other shore of reality.我们设定一个滑动窗口 window=2,即中心词 左右分别两个词 作为其 上下文 词。

1.在训练前,首先要将原始文本生成训练样本数据。下图展示了根据原始语料生成训练数据的过程。
请添加图片描述
图中蓝色阴影所覆盖的单词为 中心词,生成的训练所用的数据。每一个训练样本多个输入特征一个输出组成。其中input是feature,output是label。

在这里插入图片描述
在这里插入图片描述

2、Skip-gram

用当前值预测上下文;相当于给你一个词,让你猜前面和后面可能会出现什么词;
在这里插入图片描述

三、word2vec的使用场景

一般情况,是将word2vec的结果直接用于神经网络模型的输入层,用神经网络来完成词性预测、句法分析、情感分析等任务。

  • 7
    点赞
  • 37
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
Word2vec 是一种基于神经网络的自然语言处理技术,它通过将单词映射成向量的方式来实现文本语义的表示。其基本原理可以概括为以下两个步骤: 1. 建立词向量空间模型 Word2vec 通过训练神经网络来构建一个词向量空间模型,其中每个单词都会被表示成一个向量。这个模型通常由两个不同的神经网络架构实现,即 CBOW 和 Skip-gram。 CBOW(Continuous Bag of Words)模型的训练过程是:给定一个上下文窗口内的单词,预测中间那个单词。例如,对于句子“the cat sat on the mat”,CBOW 模型会根据上下文单词“the,cat,on,the,mat”来预测中间的单词“sat”。 Skip-gram 模型的训练过程则是反过来的:给定一个中心单词,预测它周围的上下文单词。例如,对于句子“the cat sat on the mat”,Skip-gram 模型会根据中心单词“sat”来预测它周围的上下文单词“the,cat,on,the,mat”。 在 CBOW 和 Skip-gram 模型中,每个单词都会被表示成一个向量,这个向量的维度一般是几百到几千,这些向量可以被看作是该单词在词向量空间中的位置,它们的相对位置反映了单词之间的语义关系。 2. 通过词向量计算获取语义信息 Word2vec 利用词向量之间的余弦相似度计算单词之间的语义相似度,从而实现文本语义的表示。具体来说,对于两个单词 w1 和 w2,它们的语义相似度可以通过它们的词向量计算: similarity(w1, w2) = cos(θ) = (w1·w2) / (||w1|| ||w2||) 其中,w1·w2 表示两个向量的点积,||w1|| 和 ||w2|| 分别表示两个向量的模长。余弦相似度的取值范围为 [-1, 1],值越接近 1 表示两个单词的语义相似度越高,反之则越低。 通过向量计算,Word2vec 可以实现对单词之间语义关系的刻画,例如可以计算出“king - man + woman = queen”的结果,表示女王这个词的向量可以由“国王”、“男人”、“女人”三个词的向量相加减得到。 总的来说,Word2vec 利用神经网络和向量空间模型实现了对文本语义的表示,为自然语言处理领域带来了很多创新。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值