【ML&DL学习】19 rnn embedding padding pooling

最新推荐文章于 2023-12-27 23:26:21 发布

WMXNLFD

最新推荐文章于 2023-12-27 23:26:21 发布

阅读量319

点赞数

分类专栏：机器学习之路

本文链接：https://blog.csdn.net/qq_42549254/article/details/104806363

版权

本文介绍了循环神经网络（RNN）在处理变长输入时的应用，如NLP领域的文本分类。讲解了Embedding如何将词语转换为神经网络可读的向量，并探讨了数据预处理中的填充和截断方法。通过实例展示了在IMDb电影评价数据集上的模型构建和训练过程，分析了训练和验证集的学习曲线，指出过拟合问题。最后，讨论了RNN的特点及其在序列式问题中的不同应用场景。

摘要由CSDN通过智能技术生成

循环神经网络

nlp领域并不可少的一个网络
在这里插入图片描述
Embedding是神经网络应用到nlp领域一个关键的步骤，他可以把词语转换为数字，从而让神经网络可以读取。

embedding与变长输入处理

在这里插入图片描述
使用one-hot编码的embedding。在nlp领域embedding使用很广泛的是dense embedding，词语对应的索引不再是稀疏向量，而是密集向量。

处理变长输入的方法

在这里插入图片描述
长度不够填充0。长度过长截断。

导入数据 imdb电影评价数据

imdb = keras.datasets.imdb
vocab_size = 10000
index_from = 3
(train_data, train_labels), (test_data, test_labels) = imdb.load_data(
    num_words = vocab_size, index_from = index_from)

查看数据

# 查看第一个样本
print(train_data[0], train_labels[0])
print(train_data.shape, train_labels.shape)
print(len(train_data[0]), len(train_data[1]))

在这里插入图片描述
对于每一个train data，每一个样本都是一个向量，对于train label来说，每一个样本对应一个值，他们的shape是25000，train data，第二维度不定长，所以没有给出，
可以看出第一，第二样本是不定长的，一个为218，一个为189.

print(test_data.shape, test_labels.shape)

在这里插入图片描述

最低0.47元/天解锁文章

WMXNLFD

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【ML&DL学习】19 rnn embedding padding pooling

1
复制链接

扫一扫

专栏目录