本课程来自深度之眼deepshare.net,部分截图来自课程视频。
循环神经网络(RNN)是什么?
RNN:循环神经网络
·处理不定长输入的模型
·常用于NLP及时间序列任务(输入数据具有前后关系)
RNN网络结构
图片来源
xt:时刻t的输入,shape=(1,57)
st:时刻t的状态值,shape=(1,128)
ot:时刻t的输出值,shape=(1,18)这里的18对应的下面姓名分类任务中的18个国家。
U:linear层的权重参数,shape=(128,57),这里128是神经元的个数,57是输入数据x的长度
W:linear层的权重参数,shape=(128,128)
V:linear层的权重参数,shape=(57,128)
数据流动过程如下:
x经过U,上个状态的s经过W,前面两项加起来再经过V,得到o,具体公式如下:
s
t
=
f
(
U
x
t
+
W
s
t
−
1
)
s_t=f(Ux_t+Ws_{t-1})
st=f(Uxt+Wst−1)
o
t
=
s
o
f
t
m
a
x
(
V
s
t
)
o_t=softmax(Vs_t)
ot=softmax(Vst)
hidden state:隐藏层状态信息,记录过往时刻的信息
训练RNN实现人名分类
问题定义:输入任意长度姓名(字符串),输出姓名来自哪一个国家(18分类任务)
数据:https://download.pytorch.org/tutorial/data.zip
Jackie Chan——成龙
Jay Chou——周杰伦
Tingsong Yue——余霆嵩
思考:计算机如何实现不定长字符串到分类向量的映射?
Chou(字符串)→RNN→Chinese(分类类别)
流程:
1单个字符→数字
2.数字→model
3.下一个字符→数字→model
4.最后一个字符>数字→model→分类向量
for string in [C,h,o,u]:
1. one-hot: string [0,0.….1.….0]
2.y,h=model([0,0.…,1.,0],h)
这里,chou对应的RNN结构如下,目前的应用中,前面三个输入是不需要的,只需要最后一个输出y
all_letters=string.ascii_letters+".,;""all_letters:'abcdefghijklmnopqrstuvwxyZABCDEFGHIJKLNINOPORSTUVwXYZ.,;\'
n_letters=len(all letters)#52+5字符总数n letters:57,为什么模型中输入向量的大小是57?因为有57种字符,然后转为onehot向量就是57维的了。
下面的代码是RNN的init函数中的结构定义:
self.hidden_size=hidden_size
self.u=nn.Linear(input_size, hidden_size)
self.w=nn.Linear(hidden_size, hidden_size)
self.v=nn.Linear(hidden_size, output_size)
self.tanh=nn. Tanh()
self.softmax=nn.LogSoftmax(dim=1)
PyTorch中对不定长数据的处理是通过下面的循环实现的,就是结合前一个状态的隐藏层解决的
for i in range(line_tensor.size()[0]):
output, hidden=rnn(line_tensor[i], hidden)