NLP学习——词向量

词向量:是一种表示自然语言中单词的方法,把每个词都表示为一个N维空间内的点,即一个高维空间内的向量。通过这种做法,把自然语言计算转换为向量计算。
有的时候词向量会写作:word2vec、word2vectors这里面的2并不是er,而是使用了英语读音的to。word to vectors 词转换为向量。

分词

对于人类的思维方式来说,人类喜欢将零零散散的词汇拼凑在一起形成一个语句或是一幅篇章。比如一首现代诗有时候仅凭几个词汇就能够表达出作者心中所想。
我们希望计算机能够像人类一样理解作者或是讲话者表达的含义,也就需要像人类一样具备将句子中的词汇分离开的能力。
因此,拿到一系列语言数据我们首先需要做的是对其进行分词。
例子:
——>我爱人工智能。
——>“我”,“爱”,“人工智能”
——>“我”,“爱”,“人工”,“智能”
这里面就有两种对这个语句的分词方式。对于中文分词,有几种大致成型的分词方法

one-hot编码

无论是人类还是计算机都很难直接将语言字符进行计算。我们期望着把语言字符转换为一种便于计算的形式,也就是把对应的词汇用数值类型的数据进行唯一表示。最简单的一种将语言字符转换为便于计算的一种方式就是one-hot编码。
例子:
在这里插入图片描述

优点:
1)解决了分类器处理离散数据困难的问题
2)一定程度上起到了扩展特征的作用
缺点:
1)没有考虑到词与词之间的顺序问题
2)全部都是词与词之间相互独立的表示
3)one-hot得到的特征是离散的,稀疏的

embedding

embedding将大型稀疏向量转换为保留语义关系的低维空间。
为了解决one-hot编码中词与词之间独立的缺点,引入embedding矩阵。embedding矩阵是一个行数为one-hot编码列数,列数自定义的一个随机权重矩阵。通过one-hot矩阵与embedding矩阵相乘,得到一个新的代表这个语句的矩阵。
可能描述起来有点抽象,下面继续使用案例解释:
在这里插入图片描述
这样一来具有独立关系的one-hot编码就变成了,可以计算相似度的向量矩阵表示。embedding就是把高维的one-hot进行降维的过程。“并不是每个单词都会被一个向量来代替,而是被替换为用于查找嵌入矩阵中向量的索引”,训练神经网络时,每个embedding向量都会得到更新,即在不断升维和降维的过程中,找到最适合的维度。
关于词袋模型与词向量模型的概念——>词袋模型 & 词向量模型
更详细的词向量解读——>词向量模型–paddlepaddle官方文档

参考:
【1】AIstudio飞浆集训营课程
【2】中文分词
【3】深度学习中的embedding

  • 2
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值