nn模块中的LSTM与Embedding_lstm embedding is not compatible with privided-CSDN博客

本文链接：https://blog.csdn.net/weixin_38664232/article/details/104667040

1.LSTM

RNN和RNNcell层的区别在于前者能够处理整个序列，而后者一次只处理序列中一个时间点的数据，前者封装更完备易于使用，后者更具灵活性。RNN层可以通过组合调用RNNCell来实现。

例1：RNN

import torch as t
from torch.autograd import Variable as V
import torch.nn as nn
t.manual_seed(1000)
#batch_size 为3，句子长度为2，序列中每个元素占4维
input=V(t.randn(2,3,4))

#输入向量4维，3个隐藏元，1层
lstm=nn.LSTM(4,3,1)

#初始状态,1层，batch_size=3，3个隐藏元
h0=V(t.randn(1,3,3))
c0=V(t.randn(1,3,3))

out,hn=lstm(input,(h0,c0))
print(out)

#输出
tensor([[[-0.3610, -0.1643,  0.1631],
         [-0.0613, -0.4937, -0.1642],
         [ 0.5080, -0.4175,  0.2502]],

        [[-0.0703, -0.0393, -0.0429],
         [ 0.2085, -0.3005, -0.2686],
         [ 0.1482, -0.4728,  0.1425]]], grad_fn=<StackBackward>)

例2：RNNCell

# 一个LSTMCell对应的层数只能是一层
lstm=nn.LSTMCell(4,3)
hx=V(t.randn(3,3))
cx=V(t.randn(3,3))
out=[]
for i_ in input:
    hx,cx=lstm(i_,(hx,cx))
    out.append(hx)
print(t.stack(out))

#输出
tensor([[[-0.3610, -0.1643,  0.1631],
         [-0.0613, -0.4937, -0.1642],
         [ 0.5080, -0.4175,  0.2502]],

        [[-0.0703, -0.0393, -0.0429],
         [ 0.2085, -0.3005, -0.2686],
         [ 0.1482, -0.4728,  0.1425]]], grad_fn=<StackBackward>)

可以看到，两者输出的结果是一样的。

2.Embedding

词向量在NLP中应用十分广泛，PyTorch同样提供了Embedding层。

# 有4个词，每个词用5维向量表示
embedding=nn.Embedding(4,5)
# 可以用预训练好的词向量初始化embedding
embedding.weight.data=t.arange(0,20).view(4,5)
# 行索引index=3，2，1  也就是说从预训练词向量中取前3个词向量，每个词向量5维
input=V(t.arange(3,0,-1)).long()   
print(input.size())
out=embedding(input)
print(out)


#输出
torch.Size([3])
tensor([[15, 16, 17, 18, 19],
        [10, 11, 12, 13, 14],
        [ 5,  6,  7,  8,  9]], grad_fn=<EmbeddingBackward>)