课程内容
主要内容
语言模型(Language Model)
定义
语言模型,通俗一点来说就是通过给定一系列的词预测下一个词,即给定一个长度为n的序列,语言模型输出一个关于第n+1个词的概率分布
对于一段序列的每一个词都可以输出一个概率分布,而这段序列出现的概率可以用序列中每一个词的概率乘积来表示。
N-gram model
N-gram指的是一段序列中将几个连续的词当作一个chunk,举个例子:
“今天真是个不错的日子”
在这句话中,我们假设模型的粒度是字,那么一个unigram将形如"今“,”天“,”真“,”是“,”个“这样一个字一个字组成的chunk,而bigram将形如”今天“,”天真“,”真是“,以此类推,n决定了由几个连续的词组成一个chunk。
n-gram模型是一种基于统计数据的模型,对于给定的语料库,我们首先需要统计n-gram中每一个chunk出现的频度,这将会是我们用来预测下一个词的依据
那么,如何通过这些频度预测下一个词呢?课程中首先以一个简单的假设交代这件事情,这里的假设是我们将要预测的词基于之前出现过的n-1个词的概率
P ( T i ∣ T i − 1 . . . . . . T i − n + 1 ) = P ( T I , T i − 1 , T i − 2 , . . . , T i − n + 1 ) P ( T i − 1 , T i − 2 , . . . , T i − n + 1 ) P(T_i\vert T_{i-1}......T_{i\;-n+1})\;=\;\frac{P(T_I,T_{i-1},T_{i-2},...,T_{i-n+1})}{P(T_{i-1},T_{i-2},...,T_{i-n+1})} P(Ti∣Ti−1......Ti−n+1)=P(Ti−1,Ti−2,...,Ti−n+1)P(TI,Ti−1,Ti−2,...,Ti−n+1)
这个公式就是根据我们学过的条件概率公式写出来的,从形式上,其实也不难猜出我们如何计算这个条件概率了,没错,之前统计的频度在这就派上用场了,使用频度作为概率的近似,我们得到以下公式:
P ( T I , T i − 1 , T i − 2 , . . . , T i − n + 1 ) P ( T i − 1 , T i − 2 , . . . , T i − n + 1 ) ≈ C o u n t ( T I , T i − 1 , T i − 2 , . . . , T i − n + 1 ) C o u n t ( T i − 1 , T i − 2 , . . . , T i − n + 1 ) \;\frac{P(T_I,T_{i-1},T_{i-2},...,T_{i-n+1})}{P(T_{i-1},T_{i-2},...,T_{i-n+1})}\approx\frac{Count(T_I,T_{i-1},T_{i-2},...,T_{i-n+1})}{Count(T_{i-1},T_{i-2},...,T_{i-n+1})} P(Ti−1,Ti−2,...,Ti−n+1)P(TI,Ti−1,Ti−2,...,Ti−n+1)≈Count(Ti−1,Ti−2,...,Ti−n+1)Count(TI,Ti−1,Ti−2,...,Ti−n+1)
关于这个公式,课程中也指出,存在几个问题:
Sparsity Problems
分子所代表的序列在语料中从未出现怎么办?
因为我们的公式是建立在统计频度的基础上,因此,如果我们所期待的序列并未在预料中出现,那么其频度自然为0,那么条件概率将为0,也就是说,无法得到我们想要的序列,当然我们不希望模型被加上这样的限制,解决方法是什么呢?
课程中提到,这个时候,我们会对分子进行光滑(smoothing)操作,实际上就是在分子添加一个极小的数值
δ
\delta
δ
分母代表的序列在语料中未出现怎么办?
对于这种情况,课程中给出一种解决方案,就是使用别的chunk来代替,比如说,分母是前n-1个词的序列若未出现,那么我们就使用前n-2个词的序列作为替代计算概率,这个方法叫backoff(我也不知道中文怎么翻译。。。)
以上的问题随着n的取值增大而愈发严重,一般来说n=5就是比较合理的选择了
这个是课件上的Notes,其实很好理解,n的取值越大,句子受到语料的限制就越大,换句话说,泛化性能就会随之下降。
Storage Problems
从条件概率的表达式我们不难发现n-gram模型存在的另外一个问题,就是对于内存的要求很大,基于频度意味着我们需要存储每一个chunk,这个问题很明显会随着语料库规模的扩大而愈发严重。
Other Problems
课程中还演示了几个实际模型的效果,具体的就不放图了,说说一个例子
在进行生成任务(Generating Text)时,句子的语法看起来是通顺的,但是语意连贯性却很差劲,这里就说上面提到的问题出现的地方了,我们当然希望在实际应用中得到语意通顺的句子,那么在n-gram模型中,为了使模型产出语句更加通顺,就不得不考虑更多的上下文,但这样就会增大模型的体积,出现上述的Sparsity Problems。
神经语言模型(Neural Language Model)
如名字所示,NLM引入神经网络作为语言模型,关于神经网络就不再赘述,实际上NLM就是最普通的Feed Forward结构,此时,在模型中,不再使用频度来衡量预测词的概率(仅针对课程中的Word2Vec),在NLM中,我们使用词汇的分布式表示来进行概率的计算,具体结构如下:
结构一目了然,简单地将词向量拼接后送进全连接层,随后加上Softmax输出预测概率。这里是一种Fixed-Window形式的模型,即我们只考虑固定大小的窗口,以此预测下一个词。这跟CBOW的感觉有些像。
这个模型解决了基于统计的模型中的频度为0的问题,但仍然存在问题。
Problems
首先是窗口大小,这一点依然限制着模型从上下文中捕捉更多的信息。扩大窗口同样会扩大模型的规模。参数矩阵 W W W会随着窗口的增大迅速扩大。
其次,该模型的参数矩阵 W W W是一个不可复用的矩阵,这是啥意思呢?从计算上看,每一个词向量会与这个矩阵中的某一列相乘,但是,从最初的词向量编码为隐藏层的某个数值,这一过程的拟合函数应当是类似的,也就是说,矩阵的参数从直觉上来看是存在冗余的。课程中的下个内容会解决这个问题。
循环神经网络(Recurrent Neural Networks)
基本结构
优势
从模型上看,其最大的特点有如下几点:
首先:矩阵
W
W
W的复用,从模型结构上我们可以看到,每一层的隐状态
h
h
h的计算都使用同样的矩阵,这也就意味着,模型可以应对任意增长的序列(理论上)。实践中,基础的RNN实际上并不能很好的捕捉长距离的依赖关系。
当然,在RNN中,不必再考虑n-gram/窗口,因为每一个单元都含有前面序列所包含的信息。
注意事项
在这里,主要是想说一下RNN损失函数的计算,这个算法有一个很酷炫的名字(Andrew Ng说这是他觉得深度学习中最酷的算法名字之一。。。)
这个算法叫做BPTT(BackPropagationThroughTime)不过,说白了其实也是Chain-rule的使用罢了,因为在模型中损失函数是每一个输出词的交叉熵的和,这个函数中,每一个时间步都有矩阵
W
W
W 的参与,因此在计算偏导数的时候,要将每一步的损失对于
W
W
W的偏导数累加起来。
懒得弄公式了,直接推荐一个博客:
传送门