1.2 数学符号-深度学习第五课《序列模型》-Stanford吴恩达教授


←上一篇↓↑下一篇→
1.1 为什么选择序列模型回到目录1.3 循环神经网络

数学符号(Notation)

本节先从定义符号开始一步步构建序列模型。

比如说你想要建立一个序列模型,它的输入语句是这样的:“Harry Potter and Herminoe Granger invented a new spell.”,(这些人名都是出自于J.K.Rowling笔下的系列小说Harry Potter)。假如你想要建立一个能够自动识别句中人名位置的序列模型,那么这就是一个命名实体识别问题,这常用于搜索引擎,比如说索引过去24小时内所有新闻报道提及的人名,用这种方式就能够恰当地进行索引。命名实体识别系统可以用来查找不同类型的文本中的人名、公司名、时间、地点、国家名和货币名等等。

在这里插入图片描述

现在给定这样的输入数据 x x x ,假如你想要一个序列模型输出 y y y ,使得输入的每个单词都对应一个输出值,同时这个 y y y 能够表明输入的单词是否是人名的一部分。技术上来说这也许不是最好的输出形式,还有更加复杂的输出形式,它不仅能够表明输入词是否是人名的一部分,它还能够告诉你这个人名在这个句子里从哪里开始到哪里结束。比如Harry Potter(上图编号1所示)、Hermione Granger(上图标号2所示)。

更简单的那种输出形式:

这个输入数据是9个单词组成的序列,所以最终我们会有9个特征集和来表示这9个单词,并按序列中的位置进行索引, x < 1 > 、 x < 2 > 、 x < 3 > x^{<1>}、x^{<2>}、x^{<3>} x<1>x<2>x<3> 等等一直到 x < 9 > x^{<9>} x<9> 来索引不同的位置,我将用 x < t > x^{<t>} x<t> 来索引这个序列的中间位置。 t t t 意味着它们是时序序列,但不论是否是时序序列,我们都将用 t t t 来索引序列中的位置。

输出数据也是一样,我们还是用 y < 1 > 、 y < 2 > 、 y < 3 > y^{<1>}、y^{<2>}、y^{<3>} y<1>y<2>y<3> 等等一直到 y < 9 > y^{<9>} y<9> 来表示输出数据。同时我们用 T x T_x Tx 来表示输入序列的长度,这个例子中输入是9个单词,所以 T x = 9 T_x=9 Tx=9 。我们用 T y T_y Ty 来表示输出序列的长度。在这个例子里 T x = T y T_x=T_y Tx=Ty ,上个视频里你知道 T x T_x Tx T y T_y Ty 可以有不同的值。

你应该记得我们之前用的符号,我们用 x ( i ) x^{(i)} x(i) 来表示第 i i i 个训练样本,所以为了指代第 t t t 个元素,或者说是训练样本 i i i 的序列中第 t t t 个元素用 x ( i ) < t > x^{(i)<t>} x(i)<t> 这个符号来表示。如果 T x T_x Tx 是序列长度,那么你的训练集里不同的训练样本就会有不同的长度,所以 T x ( i ) T_x^{(i)} Tx(i) 就代表第 i i i 个训练样本的输入序列长度。同样 y ( i ) < t > y^{(i)<t>} y(i)<t> 代表第 i i i 个训练样本中第 t t t 个元素, T y ( i ) T_y^{(i)} Ty(i) 就是第 i i i 个训练样本的输出序列的长度。

所以在这个例子中, T x ( i ) = 9 T_x^{(i)}=9 Tx(i)=9 ,但如果另一个样本是由15个单词组成的句子,那么对于这个训练样本, T x ( i ) = 15 T_x^{(i)}=15 Tx(i)=15

既然我们这个例子是NLP,也就是自然语言处理,这是我们初次涉足自然语言处理,一件我们需要事先决定的事是怎样表示一个序列里单独的单词,你会怎样表示像Harry这样的单词, x < 1 > x^{<1>} x<1> 实际应该是什么?

接下来我们讨论一下怎样表示一个句子里单个的词。想要表示一个句子里的单词,第一件事是做一张词表,有时也称为词典,意思是列一列你的表示方法中用到的单词。这个词表(下图所示)中的第一个词是a,也就是说词典中的第一个单词是a,第二个单词是Aaron,然后更下面一些是单词and,再后面你会找到Harry,然后找到Potter,这样一直到最后,词典里最后一个单词可能是Zulu

在这里插入图片描述

因此a是第一个单词,Aaron是第二个单词,在这个词典里,and出现在367这个位置上,Harry是在4075这个位置,Potter在6830,词典里的最后一个单词Zulu可能是第10,000个单词。所以在这个例子中我用了10,000个单词大小的词典,这对现代自然语言处理应用来说太小了。对于商业应用来说,或者对于一般规模的商业应用来说30,000到50,000词大小的词典比较常见,但是100,000词的也不是没有,而且有些大型互联网公司会用百万词,甚至更大的词典。许多商业应用用的词典可能是30,000词,也可能是50,000词。不过我将用10,000词大小的词典做说明,因为这是一个很好用的整数。

如果你选定了10,000词的词典,构建这个词典的一个方法是遍历你的训练集,并且找到前10,000个常用词,你也可以去浏览一些网络词典,它能告诉你英语里最常用的10,000个单词,接下来你可以用one-hot表示法来表示词典里的每个单词。

在这里插入图片描述

举个例子,在这里 x < 1 > x^{<1>} x<1> 表示Harry这个单词,它就是一个第4075行是1,其余值都是0的向量(上图编号1所示),因为那是Harry在这个词典里的位置。

同样 x < 2 > x^{<2>} x<2> 是个第6830行是1,其余位置都是0的向量(上图编号2所示)。

and在词典里排第367,所以 x < 3 > x^{<3>} x<3> 就是第367行是1,其余值都是0的向量(上图编号3所示)。如果你的词典大小是10,000的话,那么这里的每个向量都是10,000维的。

因为a是字典第一个单词, x < 7 > x^{<7>} x<7> 对应a,那么这个向量的第一个位置为1,其余位置都是0的向量(上图编号4所示)。

所以这种表示方法中, x < t > x^{<t>} x<t> 指代句子里的任意词,它就是个one-hot向量,因为它只有一个值是1,其余值都是0,所以你会有9个one-hot向量来表示这个句中的9个单词,目的是用这样的表示方式表示 X X X ,用序列模型在 X X X 和目标输出 Y Y Y 之间学习建立一个映射。我会把它当作监督学习的问题,我确信会给定带有 ( x , y ) (x,y) (x,y) 标签的数据。

那么还剩下最后一件事,我们将在之后的视频讨论,如果你遇到了一个不在你词表中的单词,答案就是创建一个新的标记,也就是一个叫做Unknow Word的伪造单词,用<UNK>作为标记,来表示不在词表中的单词,我们之后会讨论更多有关这个的内容。

总结一下本节课的内容,我们描述了一套符号用来表述你的训练集里的序列数据 x x x y y y ,在下节课我们开始讲述循环神经网络中如何构建 X X X Y Y Y 的映射。

课程板书

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述


←上一篇↓↑下一篇→
1.1 为什么选择序列模型回到目录1.3 循环神经网络

  • 5
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Zhao-Jichao

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值