tf.keras.preprocessing.sequence.pad_sequences()用法

最新推荐文章于 2023-06-11 21:43:06 发布

我家空空

最新推荐文章于 2023-06-11 21:43:06 发布

阅读量6.6k

点赞数 4

分类专栏：笔记

原文链接：https://blog.csdn.net/wcy23580/article/details/84957471

版权

笔记专栏收录该内容

33 篇文章 1 订阅

订阅专栏

1. 前言

keras只能接受长度相等的序列输入。当我们的数据集中出现了长度不等的序列时，可以使用pad_sequence()函数将序列转化为经过填充以后得到的一个长度相同新的序列。

2. 语法

tf.keras.preprocessing.sequence.pad_sequences(
	sequences,
	maxlen=None,
	dtype='int32',
	padding='pre',
	truncting='pre',
	value=0)

2.1 参数说明

sequences：浮点数或整数构成的两层嵌套列表
maxlen：None或整数，为序列的最大长度。大于此长度的将被截断，小于此长度的序列将在后面填0.
dtype：返回的numpy array的数据类型。
padding：pre或post，确定当需要补0时，在序列的起始还是结尾补。
truncating：pre或post，确定需要截断序列时，从起始还是结尾截断。
value：浮点数，用于填充序列。

2.2 返回值

返回的是一个二维张量，其中序列长度均为maxlen

3. 实例

>>list_1 = [[2, 3, 4]]
>>tf.keras.preprocessing.sequence.pad_sequences(list_1, maxlen=10)
array([[0, 0, 0, 0, 0, 0, 0, 2, 3, 4]], dtype=int32)

>>>list_2 = [[1,2,3,4,5]]
>>>keras.preprocessing.sequence.pad_sequences(list_2, maxlen=10)
array([[0, 0, 0, 0, 0, 1, 2, 3, 4, 5]], dtype=int32)

4. 使用`imdb`数据集进行演示

(train_data, train_labels), (test_data, test_labels) = tf.keras.dataset.imdb.load_data()
train_data = tf.keras.preprocessing.sequence.pad_sequence(train_data,maxlen=256, padding='post',value=0)

注意，imdb数据集中，单词的索引是从1开始的，不是从0开始的（按照惯例，0不代表任何特定词，而用来编码任何未知的单词），所以可以使用0填充序列。imdb数据集中序列长度最大为256.

5. 参考链接

我家空空

关注

4
点赞
踩
15

收藏

觉得还不错? 一键收藏
0
评论
tf.keras.preprocessing.sequence.pad_sequences()用法

1. 前言keras只能接受长度相等的序列输入。当我们的数据集中出现了长度不等的序列时，可以使用pad_sequence()函数将序列转化为经过填充以后得到的一个长度相同新的序列。2. 语法tf.keras.preprocessing.sequence.pad_sequences( sequences, maxlen=None, dtype='int32', padding='pre', truncting='pre', value=0)2.1 参数说明sequences：浮点数或
复制链接

扫一扫