Transformer实战(1)——词嵌入技术详解

0. 前言

在本节中,我们首先介绍词嵌入的概念,然后介绍两种实现词嵌入的方式:Word2VecGloVe,学习如何使用 Gensim 库从零开始构建语料库的词嵌入,并探索所创建的嵌入空间。

1. 词嵌入基础

词嵌入可以定义为自然语言处理 (natural language processing, NLP) 中的一组语言建模和特征学习技术,将词汇中的单词或短语映射为实数向量。
深度学习模型与其他机器学习模型一样,通常不直接处理文本,文本需要转换为数值,将文本转换为数值的过程称为向量化。早期的向量化通常使用独热编码,每个单词用一个长度等于词汇表总数的二进制向量表示,向量中只有一个位置是1,其余位置都是0。例如,如果词汇表种有三个单词 (A, B, C),则 A 编码为 [1, 0, 0]B 编码为 [0, 1, 0]C 编码为 [0, 0, 1],独热编码的主要问题是它将每个单词都视为完全独立的,因为任何两个单词之间的相似性(通过两个单词向量的点积衡量)始终为零。
点积是一种代数运算,作用于两个长度相同的向量 a = [ a 1

评论 112
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

盼小辉丶

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值