keras padding_[keras] pad_sequences

最新推荐文章于 2023-05-15 13:54:39 发布

weixin_39688875

最新推荐文章于 2023-05-15 13:54:39 发布

阅读量193

点赞数

文章标签： keras padding

填充序列使文本集中所有文本长度相同。

函数原型

keras.preprocessing.sequence.pad_sequences(sequences, 
maxlen=None, 
dtype='int32', 
padding='pre', 
truncating='pre', 
value=0.0)

这个函数将num_samples个文本序列列表 (每个序列为整数列表) 转换成一个 2D Numpy数组，数组形状为 (num_samples, num_timesteps)。如果指定了参数 maxlen 的值，则num_timesteps的值取maxlen的值，否则num_timesteps的值等于最长序列的长度。

如果序列长度小于num_timesteps的值，则用参数value的值填充序列。

如果序列长度大于num_timesteps的值，则截断序列以满足用户要求的序列长度。填充和截断的位置取决于参数padding和truncating。

参数

sequences: 列表的列表，列表中的每个元素都是一个序列。
maxlen: 整数，所有序列的最大长度。
dtype: 输出序列的类型。输出序列的类型。为了用可变长度字符串填充序列，可以使用 object。
padding: 字符串, 'pre' 或 'post': 在序列前填充或在序列后填充。
truncating: 字符串, 'pre' 或 'post': 如果序列长度大于maxlen的值，从序列前端截取或者从序列后端截取。
value: 单精度浮点数或者字符串，填充值。

导入数据

from keras.datasets import imdb
from keras.preprocessing import sequence
(X_train, y_train), (X_test, y_test) = imdb.load_data()

查看第0篇文本长度和第10篇文本长度

使各序列长度为400

# 使各序列长度都为400 
max_sequence_len = 400
X_train = sequence.pad_sequences(X_train, maxlen=max_sequence_len)

查看填充后的第0篇文本

显然，默认情况下，用0在文本前边填充。

查看截断前的第10篇文本

查看截断后的第10篇文本

显然，默认情况下，在文本前边截断。

在文本前边补0

参考:

baiziyu：keras-pad_sequenceszhuanlan.zhihu.com

weixin_39688875

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
keras padding_[keras] pad_sequences

填充序列使文本集中所有文本长度相同。函数原型keras这个函数将num_samples个文本序列列表 (每个序列为整数列表) 转换成一个 2D Numpy数组，数组形状为 (num_samples, num_timesteps)。如果指定了参数 maxlen 的值，则num_timesteps的值取maxlen的值，否则num_timesteps的值等于最长序列的长度。如果序列长度小于num_ti...
复制链接

扫一扫