KDD比赛

Starry memory

已于 2023-05-06 18:10:35 修改

阅读量122

点赞数

分类专栏：人工智能文章标签：数据挖掘

于 2021-03-05 10:48:53 首次发布

本文链接：https://blog.csdn.net/doswynkfsw/article/details/114385705

版权

人工智能专栏收录该内容

41 篇文章 1 订阅

订阅专栏

比赛链接：

比赛冠军方案：

https://github.com/aister2020/KDDCUP_2020_AutoGraph_1st_Place

比赛视频

https://ai.deepshare.net/detail/p_5ea01c6b6e534_zTeoPkAO/5
写孙的手机号登录就可以看了。

视屏学习

KDD Cup 2020 Challenges for Modern E-Commerce Platform: Debiasing
推荐系统的两个过程：一个Recall，一个Rank, 即一个召回，一个排序。两个侧重点是不一样的，在召回的时候，尽量往前排，数据是一个经典的流的这个数据，低频的往前排，关注公平性。数据比较小，用户画像也挺多的。
在这里插入图片描述
推荐系统，我们首先是有一个召回模块，召回现在又两种模式，一般都是多路召回，召回传统的都是查表，查redis或者是hbase, 查好，可以用卡夫卡放到一个消息队列里面，之后我们再去跑rank。召回还有一种方式，深度召回，主要是将用户的行为实时向量化，然后再向量数据库中取搜索，用户向量是在变的，然后用户向量投影到商品向量。
召回后进行排序，排序有粗排，或者是细排。粗排后，我们可以进行一个细排。
在这里插入图片描述
数据主要有点击数据，用户画像，商品画像，召回的方式有Embedding召回，关联规则召回，深度召回，特征工程，主要有用户特征，商品特征，交互特征。
线下评估：召回候选集打上标签，标签直接打负一，召回直接提交

推荐系统，如果用召回为目的，它会有个问题，经常会把热销召回来，热销会特别高。做推荐系统，你会发现一些热门总是往前跑。数据集给了，用户数据，商品数据，时间数据。
在这里插入图片描述

理解赛题后，第一个baseline是比较重要的。关联规则召回，这个关联表应该放到哪里。验证什么时候停，以及loss怎么设定，都是依据指标来进行的。每个指标设定的loss也是不一样的，数据探索，先去看一下有哪些数据，大致了解一下数据的分布，哪些信息比较有用，做一些细粒度的特征提取。或者一些加工，这是数据探索的目的。我们要对拿到的数据了然于胸，每个字段的含义也要清楚，他怎么用，怎么去修改，