自然语言处理(NLP)-1.3 向量空间模型(Vector Space Models)

最新推荐文章于 2025-03-12 05:15:00 发布

Ogmx

最新推荐文章于 2025-03-12 05:15:00 发布

阅读量2.5k

点赞数 8

分类专栏：自然语言处理(NLP) 人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_43093481/article/details/115051607

版权

人工智能同时被 2 个专栏收录

35 篇文章

订阅专栏

自然语言处理(NLP)

20 篇文章

订阅专栏

1.向量空间模型(Vector Space Models)

1.1 基本概念

定义：向量空间模型将单词或文本用向量表示，通过上下文来获取其语义信息

功能：识别两文本/两类文档间的相似度和独立性

例：

单词基本相同的两句话可能有不同含义；而单词完全不同的两句话可能有相同含义

1.2 应用

信息提取

机器翻译

聊天机器人

2.构建向量空间

2.1 单词统计(Word by Word)

定义：统计指定窗口大小下，两词共同出现的次数

例子：当窗口大小k=2时，对于"data"为中心词，与其共同出现的词为："like","simple","simple","raw"

由此构建出向量data=[2,1,1,0]

2.2 文本统计(Word by Doc)

定义：统计单词在不同类别文档中出现的次数

例子：如下图，data在娱乐领域文本中共出现500次、在经济领域文本中共出现6620次，在机器学习领域文本中共出现9320次

由此构建向量data=[500,6620,9320]

2.3 应用

衡量相似度

定义：通过在向量空间中进行一系列计算，可判断两向量间的相似度等

例：

3.相似度衡量方法

3.1 欧氏距离(Euclidean Distance)

定义：衡量空间中两点间距离

缺点：当语料库大小不同时，使用欧氏距离比较会产生误差

计算方法：

(1)二维情况：

公式：

$d(A,B)=\sqrt{(A_1-B_1)^2+(A_2-B_2)^2)}$

例：

(2)n维情况：

公式：

例：

python实现：

3.2 余弦相似度(Cosine Similarity)

定义：衡量两向量间的夹角，即相似程度

优点：在比较不同大小语料间相似度时，余弦相似度更加准确

计算方法：

公式：

例：

评估：

余弦相似度越小(接近0)，表示相似度越低；越大(接近1)，表示相似度越高

3.3 应用

首都预测

已知USA的首都是Washington，想得到Russia的首都，则可通过以下计算：

4.主成分分析 (PCA)

4.1 基本概念

定义：在尽可能不损失信息的情况，将高维向量投影至低维空间

功能：降维，从而使信息便于理解

4.2 PCA原理

概述：计算出各不相关特征的方向，然后在该方向上进行投影

特征值与特征向量：

特征向量：数据中的不相关特征；包含了不相关特征的方向

特征值：每个特征中包含的信息；包含了新特征值的方差

PCA算法流程：

(1)均值归一化数据：对每一个数据进行均值归一化

(2)计算协方差矩阵

(3)进行奇异值分析SVD，得到U、S、V三个矩阵

(4)通过点乘运算X'=XU，将不相关的特征数据投影至k维度

(5)计算保留方差的百分比

4.3 应用

数据可视化

定义：通过PCA将高维向量投影至三维以下，然后绘制出图形

功能：直观判断词向量效果，是否准确体现相关性

5.编程实战

作业/编程实战：使用词向量预测国家

代码：https://github.com/Ogmx/Natural-Language-Processing-Specialization

内容汇总：https://blog.csdn.net/weixin_43093481/article/details/114989382

可将代码与数据下载至本地，使用jupyter notebook打开

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

Ogmx 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。