华为2019算法大赛CTR预估数据探索 训练集 时间信息 siteId(媒体Id) slotId(广告位Id) netType(网络连接类型) id类信息 测试集 媒体id 网络型号 测试集与训练集分布 adID 训练集 这个训练集有159837655个样本,负样本1.5亿,剩下的是正样本;比例约为15:1 时间信息 时间信息有很多杂乱值,主要是2019年三月26到31日的信息, train['operTime'] = pd.to_datetime(train['operTime']) conf = (train['operTime'].dt.year==2019)&(train['operTime'].dt