NLP TASK1 数据集探索

最新推荐文章于 2021-05-30 13:31:31 发布

hongyesuifeng

最新推荐文章于 2021-05-30 13:31:31 发布

阅读量862

点赞数

分类专栏： python 机器学习

本文链接：https://blog.csdn.net/hongyesuifeng/article/details/90146138

版权

数据集：THUCNews（中）、IMDB数据集（英）

IMDB数据探索

任务描述

本次任务主要使用IMBD数据集继续二分类任务，数据含有50000条的影评数据，包括正面（1）和负面（0）的评价标签，实验使用Tensorflow中的tf.keras来进行分类任务。

任务过程详述

tensorflow 版本查看

import tensorflow as tf
from tensorflow import keras

import numpy as np

print(tf.__version__)

IMDB数据集下载、探索

imdb = keras.datasets.imdb
(train_data, train_labels), (test_data, test_labels) =  imdb.load_data(num_words=10000)
#查看训练集数量和样本长度
print("Training entries: {}, labels: {}".format(len(train_data), len(train_labels))
len(train_data[0]), len(train_data[1])

因为影评的长度不同，需要将每个影评样本标准化为相同长度，所以使用 pad_sequences函数进行标准化

# 对字符进行编号
word_index  = {
   }
word_index["<PAD>"] = 0
word_index["<START>"] = 1
word_index["<UNK>"] = 2  # unknown
word_index["<UNUSED>"] = 3
train_data = keras.preprocessing.sequence.pad_sequences(train_data,
                                                        value=word_index["<PAD>"],
                                                        padding='post',
                                                        maxlen=256)
test_data = keras.preprocessing.sequence.pad_sequences(test_data,
                                                       value=word_index["<PAD>"],
                                                       padding='post',
                                                       maxlen=256)                                                    
len(train_data[0]), len(train_data[1])

构建分类网络

# 该网络分为Embedding层，做平均操作的Pooling层，再接一个全连接层，最后是一个sigmoid二分类层，做出输出层。
vocab_size = 10000

model = keras.Sequential()
model.add(keras.layers.Embedding(vocab_size, 16))
model.add(keras.layers.GlobalAveragePooling1D())
model.add(keras.layers.Dense(16, activation=tf.nn.relu))
model.add(keras.layers.Dense(1, activation=tf.nn.sigmoid))

model.summary()
# 通过优化器来求解网络参数，因为是二分类问题，所以采用交叉熵作为Loss,最后的评价矩阵通过准确度来衡量
model.compile(optimizer=tf.train.AdamOptimizer(),
              loss='binary_crossentropy',
              metrics=['accuracy'])
# 为防止模型的过拟合，防止数据污染，使模型更具有泛化能力，留一个val验证集，测试集仅作为最后的测试
x_val = train_data[:10000]
partial_x_train = train_data[10000:]

y_val = train_labels[:10000]
partial_y_train = train_labels[10000:]

# 模型训练
history = model.fit(partial_x_train,
                    partial_y_train,
                    epochs=40,
                    batch_size=512,
                    validation_data=

最低0.47元/天解锁文章

hongyesuifeng

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
NLP TASK1 数据集探索

NLP TASK 1 数据集探索数据集：THUCNews（中）、IMDB数据集（英）IMDB数据探索任务描述本次任务主要使用IMBD数据集继续二分类任务，数据含有50000条的影评数据，包括正面（1）和负面（0）的评价标签，实验使用Tensorflow中的tf.keras来进行分类任务。任务过程详述tensorflow 版本查看import tensorflow as tffrom...
复制链接

扫一扫