lecture6 - Language Models and RNNs

主要内容

语言模型(Language Model)

定义

语言模型,通俗一点来说就是通过给定一系列的词预测下一个词,即给定一个长度为n的序列,语言模型输出一个关于第n+1个词的概率分布
对于一段序列的每一个词都可以输出一个概率分布,而这段序列出现的概率可以用序列中每一个词的概率乘积来表示。

N-gram model

N-gram指的是一段序列中将几个连续的词当作一个chunk,举个例子:
“今天真是个不错的日子”
在这句话中,我们假设模型的粒度是字,那么一个unigram将形如"今“,”天“,”真“,”是“,”个“这样一个字一个字组成的chunk,而bigram将形如”今天“,”天真“,”真是“,以此类推,n决定了由几个连续的词组成一个chunk。

n-gram模型是一种基于统计数据的模型,对于给定的语料库,我们首先需要统计n-gram中每一个chunk出现的频度,这将会是我们用来预测下一个词的依据

那么,如何通过这些频度预测下一个词呢?课程中首先以一个简单的假设交代这件事情,这里的假设是我们将要预测的词基于之前出现过的n-1个词的概率

P ( T i ∣ T i − 1 . . . . . . T i    − n + 1 )    =    P ( T I , T i − 1 , T i − 2 , . . . , T i − n + 1 ) P ( T i − 1 , T i − 2 , . . . , T i − n + 1 ) P(T_i\vert T_{i-1}......T_{i\;-n+1})\;=\;\frac{P(T_I,T_{i-1},T_{i-2},...,T_{i-n+1})}{P(T_{i-1},T_{i-2},...,T_{i-n+1})} P(TiTi1......Tin+1)=P(Ti1,Ti2,...,Tin+1)P(TI,Ti1,Ti2,...,Tin+1)

这个公式就是根据我们学过的条件概率公式写出来的,从形式上,其实也不难猜出我们如何计算这个条件概率了,没错,之前统计的频度在这就派上用场了,使用频度作为概率的近似,我们得到以下公式:

   P ( T I , T i − 1 , T i − 2 , . . . , T i − n + 1 ) P ( T i − 1 , T i − 2 , . . . , T i − n + 1 ) ≈ C o u n t ( T I , T i − 1 , T i − 2 , . . . , T i − n + 1 ) C o u n t ( T i − 1 , T i − 2 , . . . , T i − n + 1 ) \;\frac{P(T_I,T_{i-1},T_{i-2},...,T_{i-n+1})}{P(T_{i-1},T_{i-2},...,T_{i-n+1})}\approx\frac{Count(T_I,T_{i-1},T_{i-2},...,T_{i-n+1})}{Count(T_{i-1},T_{i-2},...,T_{i-n+1})} P(Ti1,Ti2,...,Tin+1)P(TI,Ti1,Ti2,...,Tin+1)Count(Ti1,Ti2,...,Tin+1)Count(TI,Ti1,Ti2,...,Tin+1)

关于这个公式,课程中也指出,存在几个问题:

Sparsity Problems

分子所代表的序列在语料中从未出现怎么办?

因为我们的公式是建立在统计频度的基础上,因此,如果我们所期待的序列并未在预料中出现,那么其频度自然为0,那么条件概率将为0,也就是说,无法得到我们想要的序列,当然我们不希望模型被加上这样的限制,解决方法是什么呢?
课程中提到,这个时候,我们会对分子进行光滑(smoothing)操作,实际上就是在分子添加一个极小的数值 δ \delta δ

分母代表的序列在语料中未出现怎么办?
对于这种情况,课程中给出一种解决方案,就是使用别的chunk来代替,比如说,分母是前n-1个词的序列若未出现,那么我们就使用前n-2个词的序列作为替代计算概率,这个方法叫backoff(我也不知道中文怎么翻译。。。)

以上的问题随着n的取值增大而愈发严重,一般来说n=5就是比较合理的选择了

这个是课件上的Notes,其实很好理解,n的取值越大,句子受到语料的限制就越大,换句话说,泛化性能就会随之下降。

Storage Problems

从条件概率的表达式我们不难发现n-gram模型存在的另外一个问题,就是对于内存的要求很大,基于频度意味着我们需要存储每一个chunk,这个问题很明显会随着语料库规模的扩大而愈发严重。

Other Problems

课程中还演示了几个实际模型的效果,具体的就不放图了,说说一个例子
在进行生成任务(Generating Text)时,句子的语法看起来是通顺的,但是语意连贯性却很差劲,这里就说上面提到的问题出现的地方了,我们当然希望在实际应用中得到语意通顺的句子,那么在n-gram模型中,为了使模型产出语句更加通顺,就不得不考虑更多的上下文,但这样就会增大模型的体积,出现上述的Sparsity Problems。

神经语言模型(Neural Language Model)

如名字所示,NLM引入神经网络作为语言模型,关于神经网络就不再赘述,实际上NLM就是最普通的Feed Forward结构,此时,在模型中,不再使用频度来衡量预测词的概率(仅针对课程中的Word2Vec),在NLM中,我们使用词汇的分布式表示来进行概率的计算,具体结构如下:

在这里插入图片描述
结构一目了然,简单地将词向量拼接后送进全连接层,随后加上Softmax输出预测概率。这里是一种Fixed-Window形式的模型,即我们只考虑固定大小的窗口,以此预测下一个词。这跟CBOW的感觉有些像。
这个模型解决了基于统计的模型中的频度为0的问题,但仍然存在问题。

Problems

首先是窗口大小,这一点依然限制着模型从上下文中捕捉更多的信息。扩大窗口同样会扩大模型的规模。参数矩阵 W W W会随着窗口的增大迅速扩大。

其次,该模型的参数矩阵 W W W是一个不可复用的矩阵,这是啥意思呢?从计算上看,每一个词向量会与这个矩阵中的某一列相乘,但是,从最初的词向量编码为隐藏层的某个数值,这一过程的拟合函数应当是类似的,也就是说,矩阵的参数从直觉上来看是存在冗余的。课程中的下个内容会解决这个问题。

循环神经网络(Recurrent Neural Networks)

基本结构

Basic RNN

优势

从模型上看,其最大的特点有如下几点:
首先:矩阵 W W W的复用,从模型结构上我们可以看到,每一层的隐状态 h h h的计算都使用同样的矩阵,这也就意味着,模型可以应对任意增长的序列(理论上)。实践中,基础的RNN实际上并不能很好的捕捉长距离的依赖关系。
当然,在RNN中,不必再考虑n-gram/窗口,因为每一个单元都含有前面序列所包含的信息。

注意事项

在这里,主要是想说一下RNN损失函数的计算,这个算法有一个很酷炫的名字(Andrew Ng说这是他觉得深度学习中最酷的算法名字之一。。。)
这个算法叫做BPTT(BackPropagationThroughTime)不过,说白了其实也是Chain-rule的使用罢了,因为在模型中损失函数是每一个输出词的交叉熵的和,这个函数中,每一个时间步都有矩阵 W W W 的参与,因此在计算偏导数的时候,要将每一步的损失对于 W W W的偏导数累加起来。
懒得弄公式了,直接推荐一个博客:
传送门

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值