NLP学习——词向量

最新推荐文章于 2024-04-27 21:05:50 发布

P-ShineBeam

最新推荐文章于 2024-04-27 21:05:50 发布

阅读量1.2k

点赞数 2

分类专栏： NLP基础知识基础文章标签：人工智能深度学习 nlp 机器学习

本文链接：https://blog.csdn.net/weixin_42045968/article/details/104728736

版权

知识基础同时被 2 个专栏收录

29 篇文章 0 订阅

订阅专栏

NLP基础

27 篇文章 1 订阅

订阅专栏

词向量：是一种表示自然语言中单词的方法，把每个词都表示为一个N维空间内的点，即一个高维空间内的向量。通过这种做法，把自然语言计算转换为向量计算。
有的时候词向量会写作：word2vec、word2vectors这里面的2并不是er，而是使用了英语读音的to。word to vectors 词转换为向量。

分词

对于人类的思维方式来说，人类喜欢将零零散散的词汇拼凑在一起形成一个语句或是一幅篇章。比如一首现代诗有时候仅凭几个词汇就能够表达出作者心中所想。
我们希望计算机能够像人类一样理解作者或是讲话者表达的含义，也就需要像人类一样具备将句子中的词汇分离开的能力。
因此，拿到一系列语言数据我们首先需要做的是对其进行分词。
例子：
——>我爱人工智能。
——>“我”，“爱”，“人工智能”
——>“我”，“爱”，“人工”，“智能”
这里面就有两种对这个语句的分词方式。对于中文分词，有几种大致成型的分词方法

one-hot编码

无论是人类还是计算机都很难直接将语言字符进行计算。我们期望着把语言字符转换为一种便于计算的形式，也就是把对应的词汇用数值类型的数据进行唯一表示。最简单的一种将语言字符转换为便于计算的一种方式就是one-hot编码。
例子：
在这里插入图片描述

优点：
1）解决了分类器处理离散数据困难的问题
2）一定程度上起到了扩展特征的作用
缺点：
1）没有考虑到词与词之间的顺序问题
2）全部都是词与词之间相互独立的表示
3）one-hot得到的特征是离散的，稀疏的

embedding

embedding将大型稀疏向量转换为保留语义关系的低维空间。
为了解决one-hot编码中词与词之间独立的缺点，引入embedding矩阵。embedding矩阵是一个行数为one-hot编码列数，列数自定义的一个随机权重矩阵。通过one-hot矩阵与embedding矩阵相乘，得到一个新的代表这个语句的矩阵。
可能描述起来有点抽象，下面继续使用案例解释：
在这里插入图片描述
这样一来具有独立关系的one-hot编码就变成了，可以计算相似度的向量矩阵表示。embedding就是把高维的one-hot进行降维的过程。“并不是每个单词都会被一个向量来代替，而是被替换为用于查找嵌入矩阵中向量的索引”，训练神经网络时，每个embedding向量都会得到更新，即在不断升维和降维的过程中，找到最适合的维度。
关于词袋模型与词向量模型的概念——>词袋模型 & 词向量模型
更详细的词向量解读——>词向量模型–paddlepaddle官方文档

参考：
【1】AIstudio飞浆集训营课程
 【2】中文分词
 【3】深度学习中的embedding

P-ShineBeam

关注

2
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
NLP学习——词向量

词向量：是一种表示自然语言中单词的方法，把每个词都表示为一个N维空间内的点，即一个高维空间内的向量。通过这种做法，把自然语言计算转换为向量计算。有的时候词向量会写作：word2vec、word2vectors这里面的2并不是er，而是使用了英语读音的to。word to vectors 词转换为向量。分词对于人类的思维方式来说，人类喜欢将零零散散的词汇拼凑在一起形成一个语句或是一幅篇章。比如...
复制链接

扫一扫

专栏目录