CS224d-Lecture8

Language Model

probability of a sequence of words
  • P(w1, w2, …, wT)
Useful for machine learning:
word - ordering
  • p(the cat is small) > p(small the is cat)
word - choice
  • p(walking home after school) > p(walking house after school)

Traditional Language Model

条件概率,其中 window size = n

assumption

P(w1,w2,...,wT)=i=1mP(wi|w1,wi1)i=1mP(wi|w1,wi1)

n-gram
  • unigram p(w2|w1)=count(w1,w2)count(w1)
  • bigram p(w3|w1,w2)=count(w1,w2,w3)count(w1,w2)
    n-gram 耗费大量内存

RNN

  • 每步权重互联
  • 条件依赖于之前所有单词
  • RAM 耗费只同单词量相关
    这里写图片描述
    这里写图片描述

ht=σ(Whhht1+Whxxt)
y^t=softmax(Wsht)

训练 RNN is hard
vanishing / exploding gradient problem

total error

EW=t=1TEtW

EtW=k=1TEtytythththkhkW

其中
hthk=j=k+1thjhj1



由于取
ht=Wf(ht1)+W(hx)x[t]


hthk=j=k+1thjhj1=j=k+1tWTdiag(f(hj1))

||hjhj1||<=||WT||||diag(f(hj1)||<=βWβh

||hthk||=||j=k+1thjhj1||<=(βWβh)tk

可能非常快的就变得很大或者很小。

vanishing gradient problem 使得许多步之前的对当前训练的影响微乎其微
exploding gradient clip gradient
vanishing gradient -> Initialization + ReLus
softmax is huge and slow
  • class based trick
双向 RNN
  • 之前和之后的训练词对当前训练都有影响
深度双向 RNN
F1 度量

precision = tp/(tp+fp)
recall = tp/(tp+fn)
F1 = 2(precision recall)/(precsion + recall)

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值