keras.datasets.imdb.py 源码分析

最新推荐文章于 2021-06-16 16:49:37 发布

qq_42189426

最新推荐文章于 2021-06-16 16:49:37 发布

阅读量882

点赞数

分类专栏： python-源码分析文章标签： python keras imdb 源码分析

本文链接：https://blog.csdn.net/qq_42189426/article/details/90756007

版权

本文分析了Keras中`keras.datasets.imdb.py`的`load_data`和`get_word_index`方法。IMDB数据集包含50,000条评论，分为训练集和测试集，各占一半。`load_data`方法负责数据的下载、预处理，包括数据打乱、截取文本长度，并返回预处理后的训练集和测试集。`get_word_index`方法获取单词到整数索引的映射字典，用于文本处理。源码中，0,1,2保留作为特殊索引，其余单词按频率排序，截取前`num_words`个。" 51729012,5605978,iOS 获取当前日期与月份信息及星期,"['iOS开发', '日期处理', 'Swift']

摘要由CSDN通过智能技术生成

概述

IMDB 数据集：包含来自互联网电影数据库（IMDB）的 50 000 条严重两极分化的评论。数据集被分为用于训练的 25 000 条评论与用于测试的 25 000 条评论，训练集和测试集都包含 50% 的正面评论和 50% 的负面评论。
imdb.py 实现了IMDB 数据集文件下载加载，及数据预处理功能。
包含两个方法：load_data（数据加载）和get_word_index（字典加载）

load_data方法源码：

	def load_data(path='imdb.npz', num_words=None, skip_top=0,
              maxlen=None, seed=113,
              start_char=1, oov_char=2, index_from=3, **kwargs):

处理原先版本的遗留问题，确保输入参数正确

	#Legacy support
    if 'nb_words' in kwargs:
        warnings.warn('The `nb_words` argument in `load_data` '
                      'has been renamed `num_words`.')
        num_words = kwargs.pop('nb_words')
    if kwargs:
        raise TypeError('Unrecognized keyword arguments: ' + str(kwargs))

获取imdb.npz

	path = get_file(path,
                    origin='https://s3.amazonaws.com/text-datasets/imdb.npz',
                    file_hash='599dadb1135973df5b59232a0e9a887c')

这里的get_file方法是Keras自带的keras.utils.data_utils.get_file方法

读取文件，获取数据

	with np.load(path) as f:
        x_train, labels_train = f

最低0.47元/天解锁文章

qq_42189426

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录