参数 input_shape、input_dim和input_length
在keras中,数据是以张量的形式表示的,不考虑动态特性,仅考虑shape的时候,可以把张量用类似矩阵的方式来理解。
例如
[[1],[2],[3]] 这个张量的shape为(3,1)
[[[1,2],[3,4]],[[5,6],[7,8]],[[9,10],[11,12]]]这个张量的shape为(3,2,2),
[1,2,3,4]这个张量的shape为(4,)
input_shape:即张量的shape。从前往后对应由外向内的维度。
input_length:代表序列长度,可以理解成有多少个样本
input_dim:代表张量的维度,(很好理解,之前3个例子的input_dim分别为2,3,1)
通过input_length和input_dim这两个参数,可以直接确定张量的shape。
常见的一种用法:只提供了input_dim=32,说明输入是一个32维的向量,相当于一个一阶、拥有32个元素的张量,它的shape就是(32,)。因此,input_shape=(32, )
参考: https://blog.csdn.net/pmj110119/article/details/94739765
序列预处理
1 填充序列 pad_sequences: 转化为2D numpy array,
进行填充或截断的工作,以获取指定长度的序列
2 跳字 skipgrams
向量空间中词表示的有效估计
生成不在原序列中连续的子序列,是n-gram(n个原序列连续的词)的推广或扩展。