21.循环神经网络


本课程来自深度之眼deepshare.net,部分截图来自课程视频。

循环神经网络(RNN)是什么?

RNN:循环神经网络
·处理不定长输入的模型
·常用于NLP及时间序列任务(输入数据具有前后关系)

RNN网络结构

图片来源
在这里插入图片描述
xt:时刻t的输入,shape=(1,57)
st:时刻t的状态值,shape=(1,128)
ot:时刻t的输出值,shape=(1,18)这里的18对应的下面姓名分类任务中的18个国家。
U:linear层的权重参数,shape=(128,57),这里128是神经元的个数,57是输入数据x的长度
W:linear层的权重参数,shape=(128,128)
V:linear层的权重参数,shape=(57,128)
数据流动过程如下:
x经过U,上个状态的s经过W,前面两项加起来再经过V,得到o,具体公式如下:
s t = f ( U x t + W s t − 1 ) s_t=f(Ux_t+Ws_{t-1}) st=f(Uxt+Wst1)
o t = s o f t m a x ( V s t ) o_t=softmax(Vs_t) ot=softmax(Vst)
hidden state:隐藏层状态信息,记录过往时刻的信息

训练RNN实现人名分类

问题定义:输入任意长度姓名(字符串),输出姓名来自哪一个国家(18分类任务)
数据:https://download.pytorch.org/tutorial/data.zip
Jackie Chan——成龙
Jay Chou——周杰伦
Tingsong Yue——余霆嵩
在这里插入图片描述
思考:计算机如何实现不定长字符串到分类向量的映射?
Chou(字符串)→RNN→Chinese(分类类别)
流程:
1单个字符→数字
2.数字→model
3.下一个字符→数字→model
4.最后一个字符>数字→model→分类向量

for string in [C,h,o,u]:
	1. one-hot: string [0,0.….1.….0]
	2.y,h=model([0,0.…,1.,0],h)

这里,chou对应的RNN结构如下,目前的应用中,前面三个输入是不需要的,只需要最后一个输出y
在这里插入图片描述

all_letters=string.ascii_letters+".,;""all_letters:'abcdefghijklmnopqrstuvwxyZABCDEFGHIJKLNINOPORSTUVwXYZ.,;\'
n_letters=lenall letters)#52+5字符总数n letters:57,为什么模型中输入向量的大小是57?因为有57种字符,然后转为onehot向量就是57维的了。

下面的代码是RNN的init函数中的结构定义:

self.hidden_size=hidden_size 
self.u=nn.Linear(input_size, hidden_size)
self.w=nn.Linear(hidden_size, hidden_size) 
self.v=nn.Linear(hidden_size, output_size)
self.tanh=nn. Tanh()
self.softmax=nn.LogSoftmax(dim=1)

PyTorch中对不定长数据的处理是通过下面的循环实现的,就是结合前一个状态的隐藏层解决的

for i in range(line_tensor.size()[0]): 
	output, hidden=rnn(line_tensor[i], hidden)
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

oldmao_2000

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值