keras.datasets.imdb.py 源码分析

本文分析了Keras中`keras.datasets.imdb.py`的`load_data`和`get_word_index`方法。IMDB数据集包含50,000条评论,分为训练集和测试集,各占一半。`load_data`方法负责数据的下载、预处理,包括数据打乱、截取文本长度,并返回预处理后的训练集和测试集。`get_word_index`方法获取单词到整数索引的映射字典,用于文本处理。源码中,0,1,2保留作为特殊索引,其余单词按频率排序,截取前`num_words`个。" 51729012,5605978,iOS 获取当前日期与月份信息及星期,"['iOS开发', '日期处理', 'Swift']
摘要由CSDN通过智能技术生成

keras.datasets.imdb.py 源码分析

概述

IMDB 数据集:包含来自互联网电影数据库(IMDB)的 50 000 条严重两极分化的评论。数据集被分为用于训练的 25 000 条评论与用于测试的 25 000 条评论,训练集和测试集都包含 50% 的正面评论和 50% 的负面评论。
imdb.py 实现了IMDB 数据集文件下载加载,及数据预处理功能。
包含两个方法:load_data(数据加载)和get_word_index(字典加载)

load_data方法源码:

	def load_data(path='imdb.npz', num_words=None, skip_top=0,
              maxlen=None, seed=113,
              start_char=1, oov_char=2, index_from=3, **kwargs):
  1. 处理原先版本的遗留问题,确保输入参数正确
	#Legacy support
    if 'nb_words' in kwargs:
        warnings.warn('The `nb_words` argument in `load_data` '
                      'has been renamed `num_words`.')
        num_words = kwargs.pop('nb_words')
    if kwargs:
        raise TypeError('Unrecognized keyword arguments: ' + str(kwargs))
  1. 获取imdb.npz
	path = get_file(path,
                    origin='https://s3.amazonaws.com/text-datasets/imdb.npz',
                    file_hash='599dadb1135973df5b59232a0e9a887c')

这里的get_file方法是Keras自带的keras.utils.data_utils.get_file方法

  1. 读取文件,获取数据
	with np.load(path) as f:
        x_train, labels_train = f
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值