Retailrocket数据集属性分析

Retailrocket数据集属性分析

近期计划使用电商数据集做强化学习相关,从论文中看到了retailrocker数据集,此数据集有四个文件(如下图),其中包括商品类别树、事件日志、物品熟悉日志。

事件日志包括了用户对物品的“view”, “addtocart” or “transaction”三个操作,在强化学习中可设置不同的奖励;物品属性日志记录物品的属性变化,如价格的变化等,由于此表的复杂性,所以下文特别分析了该表的一些属性特征。

物品属性中除了物品的“类别”和“有效性”属性外,其余属性名字均做了hash,导致不能充分利用物品属性。

  • 首先分析物品的“类别”与日志时间的联系:

从下图可以看出,物品类别随时间变化不频繁,大多数物品的类别是一个常量,少说物品的类别在两个类别之间切换,建议将物品类别处理为常量。

  • “有效性”与时间的联系

如上图,物品的有效性会随时间无规律改变,在某一时刻,物品可能无效,所以,在强化学习状态下,候选物品是一个动态的过程,建议保留有效性的动态变化。

  • 有关“价格”属性的猜测

根据讨论的官方回应,价格属性值都是数字,即以n开头,另外根据统计信息(如下图),代号888和790出现的频次最高,认为价格很大可能是其中的一个。

然后根据888属性展开分析,其具体值如下图,发现这个属性值包含大量文本信息,并且不同物品的属性值不同,相同物品的属性值相同,据此判断次属性可能属于物品介绍特征。

相同物品的888属性值
不同物品的888属性值

接下来分析790特征, 特征值如下图,可以发现,790属性值全部以n开头,也就是说它的属性值全部是数字,并且同一商品的几个随时间变化不大,据此猜测,此属性值为商品价格。

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值