昇思25天学习打卡营第7天|初学入门-数据集 Dataset
数据集下载
- 常用数据集下载可以通过download库进行下载压缩包并且解压
- 一些特殊的数据集需要自己去下载,特别是一些合成语音、恶意软件等,有的数据集会提供数据文件以及标注的csv文件,需要使用者去自己编程制作对应的data_url和data_label
- 一般数据集下载途径有三种:
- github(一般给的一个文件,里面有很多URL链接,然后运行下载)
- 指定网站
- 专门数据集网站
- 向数据集作者发邮件请求(态度要好,讲明目的以及最好用学生邮箱发)
数据迭代器
-
batch(batch_size=32)会对数据集按照指定的size进行分组,返回新的数据集对象,新的对象里会多一个维度如(32,28,28,1)
-
create_tuple_iterator()会返回一个迭代器对象,可通过next()来实现对数据集的访问
batch()
主要用于训练过程中,批量读取数据以提高训练效率。create_tuple_iterator()
主要用于在需要手动控制数据访问或者自定义数据处理逻辑时使用,比如在验证或测试阶段逐个访问数据。 -
enumerate()函数可以将列表转换为一个可迭代对象,每次迭代时返回一个包含索引和对应元素的元组。方便了同时访问数据和其索引。
数据生成器
- 生成器也属于可迭代的数据集类型,可直接用来进行模型训练
- 网上有很多的数据生成器,一般是用来模拟日常应用场景以及作为模型的训练数据