自然语言处理（一）：基于统计的方法表示单词

吃豆人编程

于 2023-09-15 15:57:09 发布

阅读量304

点赞数

分类专栏：机器学习文章标签：自然语言处理人工智能

本文链接：https://blog.csdn.net/m0_46369272/article/details/132882197

版权

机器学习专栏收录该内容

12 篇文章 1 订阅

订阅专栏

文章目录

1. 共现矩阵

将一句话的上下文大小窗口设置为1，用向量来表示单词频数，如：
在这里插入图片描述

将每个单词的频数向量求出，得到如下表格，即共现矩阵：

我们可以用余弦相似度（cosine similarity）来计算单词向量的相似性：
$\operatorname{similarity}(\boldsymbol{x}, \boldsymbol{y})=\frac{\boldsymbol{x} \cdot \boldsymbol{y}}{\|\boldsymbol{x}\|\|\boldsymbol{y}\|}=\frac{x_{1} y_{1}+\cdots+x_{n} y_{n}}{\sqrt{x_{1}^{2}+\cdots+x_{n}^{2}} \sqrt{y_{1}^{2}+\cdots+y_{n}^{2}}}$

有时会出现分母为0的情况，在具体代码实现的时候，我们可以加上一个微小值，如1e-8

def cos_similarity(x, y, eps=1e-8):
	nx = x / (np.sqrt(np.sum(x ** 2)) + eps)
	ny = y / (np.sqrt(np.sum(y ** 2)) + eps)
 	return np.dot(nx, ny)

2. 点互信息

在语料库中可能会看到很多“…the car…”这样的短语。实际上，与 the相比，drive和 car 的相关性更强。为了避免这种情况，可以引入PMI

$\operatorname{PMI}(x, y)=\log _{2} \frac{P(x, y)}{P(x) P(y)}=\log _{2} \frac{\frac{\boldsymbol{C}(x, y)}{N}}{\frac{\boldsymbol{C}(x)}{N} \frac{\boldsymbol{C}(y)}{N}}=\log _{2} \frac{\boldsymbol{C}(x, y) \cdot N}{\boldsymbol{C}(x) \boldsymbol{C}(y)}$