昇思25天学习打卡营第7天|初学入门-数据集 Dataset

昇思25天学习打卡营第7天|初学入门-数据集 Dataset

数据集下载

  1. 常用数据集下载可以通过download库进行下载压缩包并且解压
  2. 一些特殊的数据集需要自己去下载,特别是一些合成语音、恶意软件等,有的数据集会提供数据文件以及标注的csv文件,需要使用者去自己编程制作对应的data_url和data_label
  3. 一般数据集下载途径有三种:
    • github(一般给的一个文件,里面有很多URL链接,然后运行下载)
    • 指定网站
    • 专门数据集网站
    • 向数据集作者发邮件请求(态度要好,讲明目的以及最好用学生邮箱发)

数据迭代器

  1. batch(batch_size=32)会对数据集按照指定的size进行分组,返回新的数据集对象,新的对象里会多一个维度如(32,28,28,1)

  2. create_tuple_iterator()会返回一个迭代器对象,可通过next()来实现对数据集的访问

    batch() 主要用于训练过程中,批量读取数据以提高训练效率。

    create_tuple_iterator() 主要用于在需要手动控制数据访问或者自定义数据处理逻辑时使用,比如在验证或测试阶段逐个访问数据。

  3. enumerate()函数可以将列表转换为一个可迭代对象,每次迭代时返回一个包含索引和对应元素的元组。方便了同时访问数据和其索引。

数据生成器

  1. 生成器也属于可迭代的数据集类型,可直接用来进行模型训练
  2. 网上有很多的数据生成器,一般是用来模拟日常应用场景以及作为模型的训练数据
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值