参考博客:https://zhuanlan.zhihu.com/p/32103001
最近需要自己实现基于rnn的attention机制,所以参考了一下pytorch里面对rnn实现的方法。在最新版的pytorch源码中,rnn貌似直接调用的底层接口,没有找到实现的代码。在0.2.0版本中找到了实现的代码。在pytorch的实现中,RNN的实现并没有调用RNNCell类
使用到的文件列表:
- torch/nn/modules/rnn.py:RNNBase
- torch/nn/utils/rnn.py:PackedSequence
- torch/nn/modules/module.py:Module
- torch/nn/backends/thnn.py:backend.register_function(‘RNN’, RNN)
- torch/nn/_functions/rnn.py:RNN,AutogradRNN,Recurrent,StackedRNN,***Cell
torch/nn/modules/rnn.py
RNN的入口是在RNNBase中。后面的LSTM,RNN,GRU实现的代码都特别短,仅仅是在构造函数中传入了一个mode的参数。
36到56行代码创建RNN所需要的参数。这里num_layers是rnn层数;num_directions是一个1或者2的值,如果是单向rnn则为1,双向rnn是2。
for layer in range(num_layers):
for direction in range(num_directions):
layer_input_size = input_size if layer == 0 else hidden_size * num_directions
w_ih = Parameter(torch.Tensor(gate_size, layer_input_size))
w_hh = Parameter(torch.Tensor(gate_size, hidden_size))
b_ih = Parameter(torch.Tensor(gate_size))
b_hh = Parameter(torch.Tensor(gate_size))
layer_params = (w_ih, w_hh, b_ih, b_hh)
suffix = '_reverse' <