NLP深度学习 —— CS 224学习笔记 11

关键词: RNN, 递归神经网络, MV-RNN, RNTN

1、递归神经网络

递归神经网络是循环神经网络的一个超集

使句子的输入向量规模相同,而不论句子的长度不同,这样我们可以输入任意长度的句子。

想象我们的任务是接收一个句子,然后将它体现成与词相同语义空间的一个向量。这样下面三个句子的距离会非常相近。

I went to the mall yesterday.

We went shopping last week.

They went to the store.

我们可以只用之前训练unigram然后bigram,trigrams的方法来训练,但这样的方式存在两个问题。

一是词的组合可能无穷多,二是有些组合完全合理,但由于没有出现在我们的训练语料集,所以我们无法学习到。

我们需要找到一个方法接收一个句子和它各自的词向量,然后得出嵌入向量。

首先问一个有争议的问题,如果相信我们用于体现所有词的词空间足够表达任何长度的所有句子是否太幼稚?虽然这直觉上难以理解,但这些模型的表现还不错。

首先我们讨论语义和语法上理解一个句子的不同。

语义分析是理解一个句子的意思,在一个结构性语义空间将短语表现为向量,相似的句子非常接近,无关的句子相隔较远。

语法理解是我们识别句子的语法结构,部分之间的相互依赖关系、修饰关系等。这种理解的输出一般可以树的形式表达。


重要的问题来了,如果我们想知道语义表征,了解语法是否是必须或者是优势?有人可能会不同意,但我们用以下方式处理语义结合任务。

第一我们需要理解词,第二我们需要理解词结合的方式,第三我们通过考量此前两步得到短语或句子的意义。

下面我们假设给定一个句子,我们知道该句子的解析树结构,我们能否对该句子编码并且仅通过句子中词向量进行情感计分?简单的RNN就能完成这个任务。

1.1 简单单层RNN

我们首先接收一个句子解析树和词向量,然后沿着树往上走。

我们将右边底层节点的内容结合后输入网络计算

然后我们将它通过softmax层得到情感分析的计分。

以同样方式处理左边两个节点。

最后我们将左右两边的结合起来,我们将两个向量结合并计算

现在我们在词向量空间有了一个向量来代表整个句子。

我们往回走一步。认为我们可以使用相同的矩阵W来连接所有词,然后得到一个显性的h(1),然后再次用同样的矩阵W来连接所有短语向量得到更深层的短语太简单了。

我们需要对简单RNN进行一些处理来解决这个问题。


  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值