为了小论文之跟着李沐学AI(十八)

解决两个问题Variable和RNN为什么比较复杂

好像是低版本才有Variable的问题
一个Variable封装了三个东西

  • data 也就是tensor
  • grad梯度
  • grad_fn 获得梯度的方法
    依靠这个就能进行反向传播

为什么RNN复杂, 觉得绕来绕去,核心就是对于vocab了解的不够熟悉,对于字到idx的映射不熟悉。下面来看我分析

首先是load_corpus_time_machine这个函数,他可以传入一个参数,最大截取多少字符,防止数据量太大。
返回值是一个corpus和一个vocab

corpus对应的每一个单词在字典中的位置(里面装的是序号,比如the 对应序号0,那就会在the的位置放0)

vocab是一个 Vocab的类

来讲解一下Vocab类,需要传入一个token,这个token可以理解为corpus的字符版本,里面装的是单词,对于Vocab类,我们可以获取他的长度len(vocab)这个表示整个字典有多少个词,用
voab[token] 的方式获得 对应的词所对应的序号
可以使用 vocab.totokens(0) 获得对应的token

vocab是整一个词典!!!
回顾了一下vocab,RNN就变得简单易懂了,下面来看我分析

RNNmodelScratch是一个RNN的模型,相当于我们自己手写的nn.RNN

RNNModelScratch(len(vocab), num_hiddens, d2l.try_gpu(), get_params,init_rnn_state, rnn)

第一个参数len(vocab),这个表示你字典里有多少个词
第二个参数,我们希望隐藏状态是一个 num_hiddens*num_hiddens的矩阵
第三个参数用的是cpu还是gpu
第四个,获得参数的一个函数
第五个,初始的隐藏状态
第六个,我们的rnn网络(这个类就是rnn的包装类)

但是对于一个简单的实现
rnn_layer = nn.RNN(len(vocab), num_hiddens)
其实nn.RNN的第一个参数是字典的长度,第二个参数是准备传入的隐藏层的大小

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值