微信大数据推荐算法比赛

2021中国高校计算机大赛-微信大数据挑战赛Baseline

本次比赛基于脱敏和采样后的数据信息,对于给定的一定数量到访过微信视频号“热门推荐”的用户,根据这些用户在视频号内的历史n天的行为数据,通过算法在测试集上预测出这些用户对于不同视频内容的互动行为(包括点赞、点击头像、收藏、转发等)的发生概率。

本次比赛以多个行为预测结果的加权uAUC值进行评分。大赛官方网站:https://algo.weixin.qq.com/

1. 环境配置

  • pandas>=1.0.5
  • tensorflow>=1.14.0
  • python3

2. 运行配置

  • CPU/GPU均可

  • 最小内存要求

    • 特征/样本生成:3G
    • 模型训练及评估:6G
  • 耗时

    • 测试环境:内存8G,CPU 2.3 GHz 双核Intel Core i5
    • 特征/样本生成:226 s
    • 模型训练及评估:740 s

3. 目录结构

  • comm.py: 数据集生成
  • baseline.py: 模型训练,评估,提交
  • evaluation.py: uauc 评估
  • data/: 数据,特征,模型
    • wechat_algo_data1/: 初赛数据集
    • feature/: 特征
    • offline_train/:离线训练数据集
    • online_train/:在线训练数据集
    • evaluate/:评估数据集
    • submit/:在线预估结果提交
    • model/: 模型文件

4. 运行流程

  • 新建data目录,下载比赛数据集,放在data目录下并解压,得到wechat_algo_data1目录
  • 生成特征/样本:python comm.py (自动新建data目录下用于存储特征、样本和模型的各个目录)
  • 训练离线模型:python baseline.py offline_train
  • 评估离线模型:python baseline.py evaluate (生成data/evaluate/submit_${timestamp}.csv)
  • 训练在线模型:python baseline.py online_train
  • 生成提交文件:python baseline.py submit (生成data/submit/submit_${timestamp}.csv)
  • 评估代码: evaluation.py

5. 模型及特征

  • 模型:Wide & Deep
  • 参数:
    • batch_size: 128
    • emded_dim: 10
    • num_epochs: 1
    • learning_rate: 0.1
  • 特征:
    • dnn 特征: userid, feedid, authorid, bgm_singer_id, bgm_song_id
    • linear 特征:videoplayseconds, device,用户/feed 历史行为次数

6. 模型结果

stageweight_uaucread_commentlikeclick_avatarforward
离线0.6570030.6268220.6338640.7353660.690416
在线0.6079080.5774960.5886450.6823830.638398

7. 相关文献

  • Cheng, Heng-Tze, et al. “Wide & deep learning for recommender systems.” Proceedings of the 1st workshop on deep learning for recommender systems. 2016.
  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值