KDD比赛

比赛链接:

比赛冠军方案:

https://github.com/aister2020/KDDCUP_2020_AutoGraph_1st_Place

比赛视频

https://ai.deepshare.net/detail/p_5ea01c6b6e534_zTeoPkAO/5
写孙的手机号登录就可以看了。

视屏学习

KDD Cup 2020 Challenges for Modern E-Commerce Platform: Debiasing
推荐系统的两个过程:一个Recall, 一个Rank, 即一个召回,一个排序。两个侧重点是不一样的,在召回的时候,尽量往前排,数据是一个经典的流的这个数据,低频的往前排,关注公平性。数据比较小,用户画像也挺多的。
在这里插入图片描述
推荐系统,我们首先是有一个召回模块,召回现在又两种模式,一般都是多路召回,召回传统的都是查表,查redis或者是hbase, 查好,可以用卡夫卡放到一个消息队列里面,之后我们再去跑rank。召回还有一种方式,深度召回,主要是将用户的行为实时向量化,然后再向量数据库中取搜索,用户向量是在变的,然后用户向量投影到商品向量。
召回后进行排序,排序有粗排,或者是细排。粗排后,我们可以进行一个细排。
在这里插入图片描述
数据主要有点击数据,用户画像,商品画像,召回的方式有Embedding召回,关联规则召回,深度召回,特征工程,主要有用户特征,商品特征,交互特征。
线下评估:召回候选集打上标签,标签直接打负一,召回直接提交

推荐系统,如果用召回为目的,它会有个问题,经常会把热销召回来,热销会特别高。做推荐系统,你会发现一些热门总是往前跑。数据集给了,用户数据,商品数据,时间数据。
在这里插入图片描述
在这里插入图片描述
理解赛题后,第一个baseline是比较重要的。关联规则召回,这个关联表应该放到哪里。验证什么时候停,以及loss怎么设定,都是依据指标来进行的。每个指标设定的loss也是不一样的,数据探索,先去看一下有哪些数据,大致了解一下数据的分布,哪些信息比较有用,做一些细粒度的特征提取。或者一些加工,这是数据探索的目的。我们要对拿到的数据了然于胸,每个字段的含义也要清楚,他怎么用,怎么去修改,

在这里插入图片描述

传统:直接变为用户向量或者商品向量,直接去搜,直接做。做商品和商品的相似管理,或者是用户和用户的关联,如果新用户过来,不知道怎么推,可以直接推热门的。基于用户内容,基于用户的标签,刚注册app的时候有个提示,对什么感兴趣,有一个你。
深度

不错的博客

https://cloud.tencent.com/developer/article/1617082

比赛链接

https://www.kdd.org/kdd2021/
https://ogb.stanford.edu/kddcup2021/

赛道二

使用了图,不同的数据集,总共有96个G, 训练数据集,测试数据集都已经给被给,然后对不同的数据集都应该有一个提交。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值