深度学习术语:词嵌入 Word Embedding

本文介绍了词嵌入的核心思想,如何将文本转换为数字向量以便于机器学习算法处理,特别是详细讲解了Word2Vec的CBOW和Skip-gram方法,以及它们如何通过one-hot编码和神经网络实现词向量表示。
摘要由CSDN通过智能技术生成

在这里插入图片描述
词嵌入的主要思想就是将文本转换为数字。

因为一些机器学习算法(如深度网络)需要的输入是数字形式的,所以当碰到文本时,必须将文本转为数字向量形式输入到算法中。

使用向量数字形式表示词有两个好处:

  • 维度缩减-可以使用较少维度表示 one-hot 向量
  • 上下文相似度-向量表示包含上下文语义信息

词可以用 one-hot 编码方式表示,词嵌入就是创建一个更低维度的向量,名叫词向量 Word Vectors

Word2Vec 介绍

word2vec 有两种方法:
CBOW (Continuous Bag-Of-Words) 和 Skip-gram

Skip-gram方法就是取句子中固定单词数量(如 5),使用中间单词去预测周围 4 个单词。

输入是 one-hot 向量,经过隐层线性层,随后经过softmax层(结果值为正,加起来为 1)输出预测结果。中间的隐藏层权重即为嵌入矩阵embedding matrix,也即查找表。嵌入矩阵的大小为单词总数词向量维度,假如单词总数为 10000,并且隐藏神经元为 300。那么权重矩阵的大小为 10000300。

在这里插入图片描述

一个例子:假如单词总数为 5, 最终词向量维度为 3。那么权重矩阵大小就为 5*3。
在这里插入图片描述
每一个单词在权重矩阵中都有一个相关联的向量,所以叫做 word2vec

原文地址
Glossary of Deep Learning: Word Embedding
推荐阅读
The amazing power of word vectors

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值