NLP[3] - [Word Embedding系列] : one-hot编码

 
本《Word Embedding系列》文章包括:

(1)One-hot编码
(2)Word Embedding
(3)LSA(Latent Semantic Analysis)
(4)Word2vec的CBOW模型
(5)Word2vec的Skip-gram模型
(6)GloVe模型
(7)相关编程实现
 

本文介绍one-hot编码

一、前言

自然语言处理的目标在于希望计算机能够理解(NLU,Understanding)和生成(NLG,Generating)自然语言。
          
无论是NLU过程还是NLG过程,与计算机打交道,就需要转换为计算机能够识别的数字编码方式,one-hot编码是其中最简单的一种方法。

 
 

二、举例

给定一句话s = “I am a Chinese and I love China”
如何用one-hot来对每一个单词进行编码,为了简单,我们认为s构成了全体单词集合。
我们可以建立一个词汇表如下:
          
每个单词的one-hot编码获取步骤是:
1)建立一个|V|(代表词汇表总长度)的全零向量.
2)将每个单词在词汇表对应的index维度置为1,其它元素保持不变,就能得到最终的one-hot向量.

以s = “I am a Chinese and I love China”为例,下图给出了每个单词的one-hot表示:
          
得到了每个单词的embedding之后,就可以送入到机器学习或者深度学习模型中进行后续处理。

 
 

三、缺点

尽管one-hot编码是最简单有效的编码方法,它依然有下面几个缺点:
1)每个单词的one-hot编码维度是整个词汇表的大小,维度非常巨大,编码稀疏,会使得计算代价变大。
2)one-hot编码假设单词与单词之间是独立的,无法体现单词与单词的关系远近程度,例如,如果我们判断“Chinese”和“China”向量之间的相似性,得出的向量内积值为0 ([0,0,0,1,0,0,0] × [0,0,0,0,0,0,1]=0),与对“Chinese”和“and”之间的相似性没有任何区别,因为“Chinese”和“and”之间的one-hot向量内积也为0 ([0,0,0,1,0,0,0] × [0,0,0,0,1,0,0]=0)。而明显“China”与“Chinese”的关系要近于“China”与“and”的,这在one-hot编码方式中无法体现。

 
链接:https://zhuanlan.zhihu.com/p/105357841

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
《complex-valued neural networks: theories and applications》是一本介绍复数值神经网络理论和应用的电子书。该书首先介绍了复数值神经网络的基本概念和数学原理,包括复数的表示、运算规则和复数神经元的构建。然后详细阐述了复数值神经网络在信号处理、图像识别、自然语言处理等领域的应用,以及与实数值神经网络在性能上的比较和分析。 在理论方面,该书深入解释了复数值神经网络相较于实数值神经网络的优势和特点,如对非平稳信号的处理能力、对相位信息的敏感度等。同时,还介绍了复数值神经网络在频域特征提取、相位编码和解调等方面的重要性,以及复数值神经网络在复杂环境下的稳定性和鲁棒性。 在应用方面,该书涵盖了复数值神经网络在通信系统中的调制解调、自适应滤波和信道均衡等方面的应用,以及在图像处理中的相位提取、变换和压缩等应用,同时还介绍了复数值神经网络在自然语言处理中的词向量表示、语义分析和情感识别等应用。 总之,《complex-valued neural networks: theories and applications》是一本系统全面地介绍了复数值神经网络的理论和应用的电子书。这本书对于研究人员、工程师和学生都有很高的参考价值,可以帮助他们深入理解复数值神经网络的原理和方法,并且在实际应用中发挥其优势。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值