本硕非科班，单模型获得亚军！

最新推荐文章于 2022-05-29 16:39:26 发布

Datawhale

最新推荐文章于 2022-05-29 16:39:26 发布

阅读量550

点赞数

文章标签： python 深度学习机器学习大数据人工智能

本文链接：https://blog.csdn.net/Datawhale/article/details/121847276

版权

Datawhale干货

作者：周远哲，斯特拉斯堡大学硕士

我的本科与硕士都是非科班，几乎没有相关的基础。接触机器学习竞赛的半年左右的时候参加了去年kaggle规模最大的jane street量化大赛，比赛前期屠榜了几次，最终也拿到了冠军。与此同时也拿了一些其他比赛的top名次。本次比赛的主要目的还是学习，通过比赛学习一些CTR建模方面的基础知识。这一次比赛的队友很强，有幸再次拿到了好名次。

本次参加了微信大数据挑战赛，比赛中我只用到了一个模型（DCNv1），其他的时间更多是在探索和验证一些奇特的想法，初赛的方案没有构造任何手工特征，因此上分的速度相对于别的队伍要慢上很多。读者最关注的应该是模型的效果。这个方案的分数在复赛a榜，做bagging后可达到0.724+的成绩，在比赛中拿到亚军。下面具体介绍一下赛题及我的方案。后台回复 211209 可获取完整代码。

代码地址：

https://aistudio.baidu.com/aistudio/projectdetail/2536106

实践背景

赛题背景

本次比赛基于脱敏和采样后的数据信息，对于给定的一定数量到访过微信视频号“热门推荐”的用户，根据这些用户在视频号内的历史n天的行为数据，通过算法在测试集上预测出这些用户对于不同视频内容的互动行为（包括点赞、点击头像、收藏、转发等）的发生概率。本次比赛以多个行为预测结果的加权uAUC值进行评分

比赛提供训练集用于训练模型，测试集用于评估模型效果，提交结果demo文件用于展示提交结果的格式。所有数据文件格式都是带表头的.csv格式，不同字段列之间用英文逗号分隔。初赛与复赛的数据分布一致，数据规模不同。初赛提供百万级训练数据，复赛提供千万级训练数据。

赛题地址：https://algo.weixin.qq.com/

评价指标

本次比赛采用uAUC作为单个行为预测结果的评估指标，uAUC定义为不同用户下AUC的平均值，计算公式如下：

其中，n为测试集中的有效用户数，有效用户指的是对于某个待预测的行为，过滤掉测试集中全是正样本或全是负样本的用户后剩下的用户。AUCi为第i个有效用户的预测结果的AUC（Area Under Curve）。AUC的定义和计算方法可参考维基百科。

初赛的最终分数为4个行为（查看评论、点赞、点击头像、转发）的uAUC值的加权平均。复赛的最终分数为7个行为（查看评论、点赞、点击头像、转发、收藏、评论和关注）的uAUC值的加权平均。分数越高，排名越靠前。

性能要求

出于性能评估的可操作性考虑，本次比赛只要求晋级决赛的Top6队伍需满足最低性能标准，晋级空缺名额后补。组委会届时将对队伍提交的代码和模型进行性能评估。关于性能评估的具体说明如下：性能评估方法：

在组委会指定的机器上（2卡P40 48G显存 14核CPU 112G内存），预测给定测试数据集7个目标行为的概率，记录预测时长（只统计模型推理部分耗时，不包含数据处理、特征提取等部分耗时），并计算单个目标行为2000条样本的平均预测时长（单位：毫秒）。
最低性能要求：单个目标行为2000条样本的预测时长不超过200毫秒。

赛题难点

如何利用多模态向量。
如何加速训练，提高迭代效率，同时节省内存。
如何做采样？
预训练向量存在信息泄漏，导致训练过程中过拟合训练集怎么办？

赛事总结

以往的大数据挑战赛只允许在校学生参与，这一次的大数据挑战赛在职人员也可以参加，竞争更加激烈，参与数达到了惊人的6768支队伍，比赛第一天的有效提交队伍数便突破了1000，国内很多推荐算法相关的从业人员都或多或少会了解或参与，可能是今年参与人数最多的比赛了，同时也是数据挖掘爱好者证明自己实力最好的舞台。

本次大数据挑战赛的赛事方对于比赛的公平公正做了许多努力，同时提供了大量充足的算力支持（有了112G内存，写代码不需要那么抠抠搜搜了）。赛事方针对部分队伍可能利用b榜测试集数据的泄漏信息进行特征工程的情况，采取许多必要的措施。最终的比赛b榜，选手只允许使用训练好的数据进行预测，测试集的时间信息被去除，同时ab榜采用了完全不同的用户集合，既考验了选手的工程能力，也考验了选手的的建模能力。

代码实践

读取数据

比赛时能用到的有效数据越多越好，多多益善。这里我们把初赛数据也用上，用于预训练词向量。

这次分享不提供比赛数据集，使用生成的dummy数据代替。代码按照复赛的格式实现。

!pip install gensim

import pandas as pd
import numpy as np
from gensim.models import Word2Vec
from gensim.models import KeyedVectors

# notebook掉线的话会无法监测进度，因此把训练进度打印进一个文件。当然这里也可以用nohup挂起运行。
# !pip install loguru -i http://mirrors.tencentyun.com/pypi/simple 
# from loguru import logger

import os
import gc

import time
import traceback
from collections import defaultdict
from sklearn.metrics import roc_auc_score

from paddle.io import Dataset
from paddle.static import InputSpec

import paddle
import paddle.fluid as fluid

from paddle.fluid.dygraph import Linear
from paddle.fluid.dygraph import Layer, to_variable
import paddle.fluid.dygraph as dygraph

# paddle.enable_static()


# 读取测试集
test_a = pd.read_csv('./test_a.csv')

# 读取初赛数据
test_pre_a = pd.read_csv('wbdc2021/data/wedata/wechat_algo_data1/test_a.csv')
test_pre_b = pd.read_csv('wbdc2021/data/wedata/wechat_algo_data1/test_b.csv')
test_pre_a = test_pre_a.append(test_pre_b)

# 读取多模态向量
feed_embedding = pd.read_csv('./feed_embeddings.csv')

# 读取初赛、复赛训练集
user_action = pd.read_csv('./user_action.csv')
user_action_prelimi = pd.read_csv('wbdc2021/data/wedata/wechat_algo_data1/user_action.csv') 
user_action = user_action.append(user_action_prelimi)

# 读取feed信息
feed_info = pd.read_csv('./feed_info.csv')

N_test = test_a.shape[0]

# 读取多模态词向量为词典
feed_id_embedding_dict = {}

# 使用词典存储多模态向量
for id, emb in feed_embedding.values:
  feed_id_embedding_dict[id] = np.array(emb.split(' ')[:512]).astype('float32')
del feed_embedding

# uAUC评测函数
def uAUC(labels, preds, user_id_list):
    """Calculate user AUC"""
    user_pred = defaultdict(lambda: [])
    user_truth = defaultdict(lambda: [])
    for idx, truth in enumerate(labels):
        user_id = user_id_list[idx]
        pred = preds[idx]
        truth = labels[idx]
        user_pred[user_id].append(pred)
        user_truth[user_id].append(truth)

    user_flag = defaultdict(lambda: False)
    for user_id in set(user_id_list):
        truths = user_truth[user_id]
        flag = False
        # 若全是正样本或全是负样本，则flag为False
        for i in range(len(truths) - 1):
            if truths[i] != truths[i + 1]:
                flag = True
                break
        user_flag[user_id] = flag

    total_auc = 0.0
    size = 0.0
    for user_id in user_flag:
        if user_flag[user_id]:
            auc = roc_auc_score(np.asarray(user_truth[user_id]), np.asarray(user_pred[user_id]))
            total_auc += auc 
            size += 1.0
    user_auc = float(total_auc)/size
    return user_auc

# 统一设置一些超参数

N_USERID = 250250
N_FEEDID = 112871  # feedid个数
N_AUTHORSONGSINGER = 30000

EMBEDDING_SIZE_FEEDID_PRETRAINED = 256  # 预训练feedid的维度

N_duomo = 64   # 多模态向量降维
PCA_DIM = 64   # 文本类向量降维
EMBEDDING_SIZE_AUTHORID = 128
EMBEDDING_SIZE_SONGSINGERID = 32
EMBEDDING_SIZE_KEYWORDTAG = 20

BATCH_SIZE = 8000
EPOCHS = 2

预训练词向量

# 预训练feedid词向量
# 这里没有对id的顺序进行处理，按默认的顺序训练词向量。

if os.path.exists('./feedmodel_cbow.model'):
    model_sg = Word2Vec.load('./feedmodel_cbow.model')
else:
    feedid_seq_list = np.concatenate([
                                        user_action.groupby('userid').feedid.apply(lambda x: [str(id)