Paddle中的QueueDataset和InMemoryDataset

QueueDataset和InMemoryDataset是两种数据处理方式,前者是一边读取数据一边训练;后者是先将数据读取到内存中,然后再开始训练。

除了读取数据上的区别,在数据存储结构上也不太一样,QueueDataset使用了MultiSlotType结构,InMemoryDataset使用的是Record结构;这两种结构都在同一个文件中

MultiSlotType和Record原理都差不多,搞了两个数据容器,一个用来存储整型数据,一个用来存储浮点型数据,拿Record来说,整型数据会存储到uint64_feasigns_的vector中,浮点型数据则存储在float_feasigns_的vector中,结构部分截图如下:

 

值得一提的是,paddle在特征使用方面也比较方便,按照slot id即可拿到自己所需的feasign,举个例子 ,假设存在如下数据格式

0.1 0.2 0.3 1 2 3 4 5

依旧以Record来说,前三个float数据会被依次存到float_feasign_中,后五个整型数据则被放到uint64_feasigns_中,每个特征都会有对应的slot id,在底层你可以根据slot id对相应的特征进行一些操作。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 3
    评论
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值