第三届Apache Flink 极客挑战赛暨AAIG CUP电商推荐“抱大腿”攻击识别

数据描述

给定恶意点击正常点击及对应的“商品”、“用户”相关属性信息(用户本地调试可以从网上下载),选手实现实时的恶意点击识别分类算法,包括模型训练和模型预测。

在大赛评测系统中,系统使用100万条数据用于模型训练、10万条数据用于模型预测。另外,我们提供给选手50万条数据的数据集用于算法的本地调试。

数据格式

我们将会提供如下格式的数据用于训练与预测。所有数据均采用csv格式保存在文件中,即以下数据格式的各列之间以逗号分隔。每条数据代表一次用户点击商品的行为,它的特征主要来源于其所关联的用户与商品。

训练数据的文件格式

包含训练数据的文件具有以下数据格式

uuidvisit_timeuser_iditem_idfeatureslabel
  • uuid:每条数据的id。该id在数据集内具有唯一性。

  • visit_time:该条行为数据的发生时间。实时预测过程中提供的数据的该值基本是单调递增的。

  • user_id:该条数据对应的用户的id。

  • item_id:该条数据对应的商品的id。

  • features:该数据的特征,包含N个用空格分隔的浮点数。其中,第1 ~ M个数字代表商品的特征,第M+1 ~ N个数字代表用户的特征

  • label:值为0或1,代表该数据是否为正常行为数据。

注意:选手能够下载、用于本地调试的数据中,train.csv中的user_id、item_id两列顺序被调换,与上述描述的顺序、评测系统使用的数据格式不符。选手在使用这两列数据调试算法之前,应先自行处理数据,交换这两列的顺序。

模型文件的输入输出格式

对于只希望在算法层面加以优化的选手,仅需保证保存的模型文件的输入输出为如下格式即可。我们提供的示例镜像的代码能够预处理输入数据的格式,解析Tensorflow模型的推理结果,并最终生成符合评测程序要求的CSV格式的文件。

预测模型输入tensor格式。其中N为feature的个数

Tensor("input:0", shape=(?, N), dtype=float32)

预测模型输出tensor格式。输出值为0或1,表示输入行为数据是否为恶意行为。

Tensor("output:0", shape=(?, 1), dtype=float32)

比赛环境

Apache Flink 是一个在无界有界数据流上进行状态计算框架分布式处理引擎。Flink 已经可以在所有常见的集群环境中运行,并以 in-memory 的速度任意的规模进行计算。

在Flink的基础上,Flink AI Flow作为兼顾流计算的大数据 + AI 顶层工作流抽象和配套服务,提供了机器学习的端到端解决方案。

Analytics ZooBigDL是英特尔®开源的统一大数据分析和AI平台,支持分布式TensorFlow及PyTorch的训练和推理,通过OpenVINO工具套件和DL Boost指令集等,提升深度学习工作负载的性能。Cluster ServingAnalytics Zoo/BigDL的分布式推理解决方案,可以部署在Apache Flink集群上进行分布式运算。

Occlum是蚂蚁集团基于Intel SGX的开源LibOS,使得 Linux 应用程序在只修改少量代码或者完全不修改代码的情况下运行于 Enclave 安全环境中,保证数据处于加密和强隔离状态,确保数据安全与用户隐私。

本次比赛将在由Occlum提供的可信执行环境基础上,使用Flink AI Flow定义深度学习工作流。参赛者需要实现深度学习模型(比如TensorFlow),在上述环境中完成模型训练,并将模型部署在Cluster Serving(Analytics Zoo/BigDL上提供推理服务。

背景介绍

随着互联网的发展,网购成为越来越多人的选择,据阿里巴巴财报显示,2020财年阿里巴巴网站成交总额突破一万亿美元,全球年度活跃消费者达9.60亿

为了满足不同用户的个性化需求,电商平台会根据用户的兴趣爱好推荐合适的商品,从而实现商品排序的千人千面需求。推荐系统常见的召回路径U2I(User-Item)、I2I(Item-Item)等。特别的,在推荐场景中,为了更好的提升推荐的时效性与准确性,平台会基于全网的用户行为信息进行实时的 U2I 及 I2I 的更新,并且基于用户最近的行为信息进行相关性的推荐。

为了获取更多的平台流量曝光,将自己的商品展现在更多的消费者面前,部分商家通过HACK平台的推荐机制从而增加商品的曝光机会。其中一种典型的手法为“抱大腿”攻击,该方法通过雇佣一批恶意用户协同点击目标商品爆款商品,从而建立目标商品与爆款商品之间的关联关系,提升目标商品与爆款商品之间的I2I关联分。商家通过这种方式诱导用户以爆款的心理预期购买名不符实的商品,不仅损害了消费者的利益,降低其购物体验,还影响了平台和其他商家的信誉,严重扰乱了平台的公平性。实时拦截此类行为,有助于在保证推荐的时效性的同时,保护实时推荐系统不受恶意攻击影响。

如何准确、高效地识别这类型的恶意流量攻击,实时过滤恶意的点击数据是推荐系统中迫切需要解决的问题。

除此之外,此类实时风控系统对数据安全的要求较高。如果系统的拦截算法意外泄漏,HACK平台将得以针对性地加强恶意流量的伪装能力,增大平台监控恶意流量的难度。因此,此类系统有必要部署在加密的可信环境中。

本赛题要求选手基于FlinkAnalytics Zoo/BigDL 等组件,在Occlum环境中搭建保护数据安全的PPML(Privacy Preserving Machine Learning)应用,实现对恶意流量的实时识别。

初赛(2021年8月16日-2021年9月24日,UTC+8)

  1. 初赛采用docker镜像的提交方式,提交说明请参考容器镜像文档。由选手提交打包好的代码镜像来运行得出搭建结果;

  2. 参赛队伍通过天池平台下载小型训练集和测试集,用于本地训练和调试算法;最终完成的代码镜像提交到天池平台后,由评测系统在完整数据集上训练与预测;

  3. 初赛系统每天提供2次评测机会。系统将按照评测指标从高到低进行排序,每小时更新排行榜, 排行榜将根据参赛队伍在本阶段的历史最优成绩进行排名展示;

  4. 初赛截至提交时间为9月24日17:00,排行榜最后一次刷新时间为9月24日18:00。初赛阶段未产出成绩队伍和未按要求完成实名认证队伍,将被取消参赛资格。(实名认证入口:天池网站-个人中心-认证-支付宝实名认证);

  5. 初赛结束,成绩TOP50团队提交代码审核,规范详见“代码规范”文档,代码提交截止时间9月30日17:00。通过代码审核且通过实名认证的排名前50名的参赛队伍将进入复赛。

  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

AI生成曾小健

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值