实战IMDB数据集电影评论文本分类(二)

3、处理数据

由于评论长度不一致,所以在输入神经网络前必须将电影评论长度统一化,接一下将用到Keras.preprocessing.sequence.pad_sequences函数来使长度标准化。

train_data = keras.preprocessing.sequence.pad_sequences(train_data,
                                                        value=word_index["<PAD>"],
                                                        padding='post',
                                                        maxlen=256)

test_data = keras.preprocessing.sequence.pad_sequences(test_data,
                                                       value=word_index["<PAD>"],
                                                       padding='post',
                                                       maxlen=256)
 #查看样本长度
print(len(train_data[0]), len(train_data[1]))

#检查第一条数据(当前是否已经填充)
print(train_data[0])

打印结果:

256 256

[23022   309     6     3  1069   209     9  2175    30     1   169    55
    14    46    82  5869    41   393   110   138    14  5359    58  4477
   150     8     1  5032  5948   482    69     5   261    12 23022 73935
  2003     6    73  2436     5   632    71     6  5359     1 25279     5
  2004 10471     1  5941  1534    34    67    64   205   140    65  1232
 63526 21145     1 49265     4     1   223   901    29  3024    69     4
     1  5863    10   694     2    65  1534    51    10   216     1   387
     8    60     3  1472  3724   802     5  3521   177     1   393    10
  1238 14030    30   309     3   353   344  2989   143   130     5  7804
    28     4   126  5359  1472  2375     5 23022   309    10   532    12
   108  1470     4    58   556   101    12 23022   309     6   227  4187
    48     3  2237    12     9   215     0     0     0     0     0     0
     0     0     0     0     0     0     0     0     0     0     0     0
     0     0     0     0     0     0     0     0     0     0     0     0
     0     0     0     0     0     0     0     0     0     0     0     0
     0     0     0     0     0     0     0     0     0     0     0     0
     0     0     0     0     0     0     0     0     0     0     0     0
     0     0     0     0     0     0     0     0     0     0     0     0
     0     0     0     0     0     0     0     0     0     0     0     0
     0     0     0     0     0     0     0     0     0     0     0     0
     0     0     0     0     0     0     0     0     0     0     0     0
     0     0     0     0]


4、构建网络

本次任务本质就是文本的二分类问题,在此样本中,输入数据包含一个单词索引的数组。要预测的标签为 0 或 1。

# 输入形状是用于电影评论的词汇数目(88584 词)
vocab_size = 88584

model = keras.Sequential()
model.add(keras.layers.Embedding(vocab_size, 16))
model.add(keras.layers.GlobalAveragePooling1D())
model.add(keras.layers.Dense(16, activation='relu'))
model.add(keras.layers.Dense(1, activation='sigmoid'))

#打印模型
model.summary()

打印结果:

Model: "sequential"
_________________________________________________________________
 Layer (type)                Output Shape              Param #   
=================================================================
 embedding (Embedding)       (None, None, 16)          160000    
                                                                 
 global_average_pooling1d (G  (None, 16)               0         
 lobalAveragePooling1D)                                          
                                                                 
 dense (Dense)               (None, 16)                272       
                                                                 
 dense_1 (Dense)             (None, 1)                 17        
                                                                 
=================================================================
Total params: 160,289
Trainable params: 160,289
Non-trainable params: 0
  1. 第一层是嵌入层(Keras.layers.Embedding),该层采用整数编码的词汇表,并查找每个词索引的嵌入向量(embedding vector)。这些向量是通过模型训练学习到的。向量向输出数组增加了一个维度。得到的维度为:(batch, sequence, embedding)。
  2. 第二层是keras.layers.GlobalAveragePooling1D将通过对序列维度求平均值来为每个样本返回一个定长输出向量。keras.layers.GlobalAveragePooling1D用于对时序数据进行全局平均池化。它是一个一维的池化层,可以将输入张量中的所有特征值相加并除以特征值的数量,从而得到一个二维的输出张量。这允许模型以尽可能最简单的方式处理变长输入。
  3. 第三层是全连接层(keras.layers.Dense)。该定长输出向量通过一个有 16 个隐层单元的全连接层传输,激活函数使用了relu。
  4. 第四层全连接层keras.layers.Dense与单个输出结点密集连接。使用 Sigmoid 激活函数,其函数值为介于 0 与 1 之间的浮点数,表示概率或置信度。
  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

缘起性空、

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值