YoutubeNet的数据答疑

实在是太忙了,抽空给大家解析一下之前写的YoutubeNet的数据是怎么构造的,协助大家可以自行构造一下。

这边和大家说一下,我没有上传数据的原因有两个:

  • 涉及公司的数据财产,不方便上传
  • 懒得做脱敏处理
  • 数据一共有1300多万条,传输实在不方便

主要数据处理的部分在map_id_idx.py脚本下,其中包含all_item_20180624.txt和click_thirty_day_data_20180609.txt两个数据集合。

其中,all_item_20180624.txt是当日所有的商品集合:包含’Prd_Id’, ‘ItemId’, ‘BrandId’, 'MsortId’和‘GenderId’五列,分别代表着商品id,skuid,低级品牌id,中级品牌id,产品性别,最后形如:

5675    50000055    175    1500    3
2577    50000056    187    66    3
2002    50000057    63    11    2
2007    50000058    137    58    3
2075    50000060    80    50    3
2348    50000061    138    16    2
423    50000062    162    237    3
469    50000063    10    1500    3
1102    50000064    176    11    1
1896    50000066    37    27    1
2489    50000067    27    44    1
...

click_thirty_day_data_20180609.txt为近三十天的用户点击流,包含’UId’, ‘ItemId’, 'clickTime’三列,分别代表着uid、点击的skuid,点击时间,最后形如:

34    51668064    1528602406
34    51890512    1528788389
34    51884724    1528788393
34    51884720    1528788399
34    51884718    1528788414
34    51580974    1528788442
34    51854970    1528788487
34    51514910    1528788499
34    51855000    1528788535
34    51854990    1528788569
34    51854998    1528788572
...

通过map_id_idx.py对所有的商品进行标序号,然后带入用户的点击流中,方便后期做embedding操作,就酱。

欢迎大家关注我的个人bolg知乎,更多代码内容欢迎follow我的个人Github,如果有任何算法、代码、转行疑问都欢迎通过公众号发消息给我。

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值