深度学习与自然语言处理(1)_斯坦福cs224d Lecture 1

最新推荐文章于 2024-05-15 17:46:49 发布

龙心尘

最新推荐文章于 2024-05-15 17:46:49 发布

阅读量3.4w

点赞数 6

分类专栏： DL+NLP 文章标签：自然语言处理深度学习斯坦福大学词向量

本文链接：https://blog.csdn.net/longxinchen_ml/article/details/51567960

版权

本文为斯坦福大学CS224d课程的中文版内容笔记，已得到斯坦福大学课程@Richard Socher教授的授权翻译与发表

摘要由CSDN通过智能技术生成

作者：寒小阳 && 龙心尘
时间：2016年6月
出处：
http://blog.csdn.net/han_xiaoyang/article/details/51567822
http://blog.csdn.net/longxinchen_ml/article/details/51567960
声明：版权所有，转载请联系作者并注明出处

说明：本文为斯坦福大学CS224d课程的中文版内容笔记，已得到斯坦福大学课程@Richard Socher教授的授权翻译与发表

特别鸣谢：@Fantzy同学对部分内容翻译的帮助
课堂笔记：第一部分

春季2016

关键词：自然语言处理（NLP）.词向量（Word Vectors）.奇异值分解(Singular Value Decomposition). Skip-gram. 词组的持续爆（CBOW）,负采样样本（Negative Sampling）

这是本课程的第一节，我们会先介绍自然语言处理（NLP）的概念和NLP现在所面对问题；然后开始讨论用数学向量代表自然语言词组的设想。最后我们会讨论现行的词向量构造方法。

1. 自然语言处理简介

在最开始咱们先说说什么是NLP。NLP的目的是设计出算法，让计算机“懂得”人类的自然语言，从而为人类执行任务。这些任务分为几个难度等级，例如

容易的任务：

语法检查
关键词搜索
查找同义词

中等难度的任务：

从网站，文件或其他来源中提取信息

比较有挑战的任务：

机器翻译（例如：中译英）
语意分析（提问者说的意思是什么）
指代分析（例如. “他”或“它”在一个特定文件中指的是什么）
回答问题（例如.回答“Jeopardy Questions”一种涉及人类社会各个方面的综艺问答）

在处理所有NLP任务的时候，我们首先需要解决非常重要的一个问题(可能是最重要的)：用什么方式将词组输入到模型中去。简单的NLP问题可能并不需要将词组作为独立个体对待（atomic symbols），但现在的问题绝大多数需要这样一个预处理，来体现词组之间关联/相似性和区别。所以我们引入词向量的概念，如果把词编码成词向量，我们很容易从向量的角度去衡量不同的词之间的关联与差异（常用的距离测度法，包括Jaccard, Cosine, Euclidean等等，注：距离测度法，即用一个可观测度量的量来描述一个不能直接观测度量的量）。

2.词向量

我们拿英文举例。

英语中大约有1300万个词组（token，自定义字符串，译作词组），不过他们全部是独立的吗？并不是哦，比如有一些词组，“Feline猫科动物”和“Cat猫”，“Hotel宾馆“和”Motel汽车旅馆”，其实有一定的关联或者相似性在。因此，我们希望用词向量编码词组，使它代表在词组的N维空间中的一个点（而点与点之间有距离的远近等关系，可以体现深层一点的信息）。每一个词向量的维度都可能会表征一些意义（物理含义），这些意义我们用“声明speech”来定义。例如，语义维度可以用来表明时态（过去与现在与未来），计数（单数与复数），和性别（男性与女性）。

说起来，词向量的编码方式其实挺有讲究的。咱们从最简单的看起，最简单的编码方式叫做one-hot vector：假设我们的词库总共有n个词，那我们开一个1*n的高维向量，而每个词都会在某个索引index下取到1，其余位置全部都取值为0.词向量在这种类型的编码中如下图所示：
$w^{aardcark}= \begin{bmatrix} 1 \\ 0 \\ 0 \\ \vdots \\ 0 \end{bmatrix} , w^{a}= \begin{bmatrix} 0 \\ 1 \\ 0 \\ \vdots \\ 0 \end{bmatrix} w^{at}= \begin{bmatrix} 0 \\ 0 \\ 1 \\ \vdots \\ 0 \end{bmatrix} \cdots \\ w^{zebra}= \begin{bmatrix} 0 \\ 0 \\ 0 \\ \vdots \\ 1 \end{bmatrix}$
这种词向量编码方式简单粗暴，我们将每一个词作为一个完全独立的个体来表达。遗憾的是，这种方式下，我们的词向量没办法给我们任何形式的词组相似性权衡。例如:
$w^{hotel})^Tw^{motel}=(w^{hotel})^Tw^{cat}=0$
（注：这里 $W^{-1}$ 是