第三届Apache Flink 极客挑战赛暨AAIG CUP电商推荐“抱大腿”攻击识别

最新推荐文章于 2024-08-12 18:10:44 发布

AI生成曾小健

最新推荐文章于 2024-08-12 18:10:44 发布

阅读量770

点赞数 1

文章标签： big data 算法人工智能

本文链接：https://blog.csdn.net/sinat_37574187/article/details/119928066

版权

数据描述

给定恶意点击、正常点击及对应的“商品”、“用户”相关的属性信息（用户本地调试可以从网上下载），选手实现实时的恶意点击识别分类算法，包括模型训练和模型预测。

在大赛评测系统中，系统使用100万条数据用于模型训练、10万条数据用于模型预测。另外，我们提供给选手50万条数据的数据集用于算法的本地调试。

数据格式

我们将会提供如下格式的数据用于训练与预测。所有数据均采用csv格式保存在文件中，即以下数据格式的各列之间以逗号分隔。每条数据代表一次用户点击商品的行为，它的特征主要来源于其所关联的用户与商品。

训练数据的文件格式

包含训练数据的文件具有以下数据格式

uuid	visit_time	user_id	item_id	features	label

uuid：每条数据的id。该id在数据集内具有唯一性。
visit_time：该条行为数据的发生时间。实时预测过程中提供的数据的该值基本是单调递增的。
user_id：该条数据对应的用户的id。
item_id：该条数据对应的商品的id。
features：该数据的特征，包含N个用空格分隔的浮点数。其中，第1 ~ M个数字代表商品的特征，第M+1 ~ N个数字代表用户的特征。
label：值为0或1，代表该数据是否为正常行为数据。

注意：选手能够下载、用于本地调试的数据中，train.csv中的user_id、item_id两列顺序被调换，与上述描述的顺序、评测系统使用的数据格式不符。选手在使用这两列数据调试算法之前，应先自行处理数据，交换这两列的顺序。

模型文件的输入输出格式

对于只希望在算法层面加以优化的选手，仅需保证保存的模型文件的输入输出为如下格式即可。我们提供的示例镜像的代码能够预处理输入数据的格式，解析Tensorflow模型的推理结果，并最终生成符合评测程序要求的CSV格式的文件。

预测模型输入tensor格式。其中N为feature的个数。

Tensor("input:0", shape=(?, N), dtype=float32)

预测模型输出tensor格式。输出值为0或1，表示输入行为数据是否为恶意行为。

Tensor("output:0", shape=(?, 1), dtype=float32)

比赛环境

Apache Flink 是一个在无界和有界数据流上进行状态计算的框架和分布式处理引擎。Flink 已经可以在所有常见的集群环境中运行，并以 in-memory 的速度和任意的规模进行计算。

在Flink的基础上，Flink AI Flow作为兼顾流计算的大数据 + AI 顶层工作流抽象和配套服务，提供了机器学习的端到端解决方案。

Analytics Zoo及BigDL是英特尔®开源的统一大数据分析和AI平台，支持分布式TensorFlow及PyTorch的训练和推理，通过OpenVINO工具套件和DL Boost指令集等，提升深度学习工作负载的性能。Cluster Serving是Analytics Zoo/BigDL的分布式推理解决方案，可以部署在Apache Flink集群上进行分布式运算。

Occlum是蚂蚁集团基于Intel SGX的开源LibOS，使得 Linux 应用程序在只修改少量代码或者完全不修改代码的情况下运行于 Enclave 安全环境中，保证数据处于加密和强隔离状态，确保数据安全与用户隐私。

本次比赛将在由Occlum提供的可信执行环境基础上，使用Flink AI Flow定义深度学习工作流。参赛者需要实现深度学习模型（比如TensorFlow)，在上述环境中完成模型训练，并将模型部署在Cluster Serving（Analytics Zoo/BigDL）上提供推理服务。

背景介绍

随着互联网的发展，网购成为越来越多人的选择，据阿里巴巴财报显示，2020财年阿里巴巴网站成交总额突破一万亿美元，全球年度活跃消费者达9.60亿。

为了满足不同用户的个性化需求，电商平台会根据用户的兴趣爱好推荐合适的商品，从而实现商品排序的千人千面需求。推荐系统常见的召回路径有U2I（User-Item）、I2I（Item-Item）等。特别的，在推荐场景中，为了更好的提升推荐的时效性与准确性，平台会基于全网的用户行为信息进行实时的 U2I 及 I2I 的更新，并且基于用户最近的行为信息进行相关性的推荐。

为了获取更多的平台流量曝光，将自己的商品展现在更多的消费者面前，部分商家通过HACK平台的推荐机制从而增加商品的曝光机会。其中一种典型的手法为“抱大腿”攻击，该方法通过雇佣一批恶意用户协同点击目标商品和爆款商品，从而建立目标商品与爆款商品之间的关联关系，提升目标商品与爆款商品之间的I2I关联分。商家通过这种方式诱导用户以爆款的心理预期购买名不符实的商品，不仅损害了消费者的利益，降低其购物体验，还影响了平台和其他商家的信誉，严重扰乱了平台的公平性。实时拦截此类行为，有助于在保证推荐的时效性的同时，保护实时推荐系统不受恶意攻击影响。

如何准确、高效地识别这类型的恶意流量攻击，实时过滤恶意的点击数据是推荐系统中迫切需要解决的问题。

除此之外，此类实时风控系统对数据安全的要求较高。如果系统的拦截算法意外泄漏，HACK平台将得以针对性地加强恶意流量的伪装能力，增大平台监控恶意流量的难度。因此，此类系统有必要部署在加密的可信环境中。

本赛题要求选手基于Flink，Analytics Zoo/BigDL 等组件，在Occlum环境中搭建保护数据安全的PPML（Privacy Preserving Machine Learning）应用，实现对恶意流量的实时识别。

初赛（2021年8月16日-2021年9月24日，UTC+8）

初赛采用docker镜像的提交方式，提交说明请参考容器镜像文档。由选手提交打包好的代码镜像来运行得出搭建结果；
参赛队伍通过天池平台下载小型训练集和测试集，用于本地训练和调试算法；最终完成的代码镜像提交到天池平台后，由评测系统在完整数据集上训练与预测；
初赛系统每天提供2次评测机会。系统将按照评测指标从高到低进行排序，每小时更新排行榜, 排行榜将根据参赛队伍在本阶段的历史最优成绩进行排名展示；
初赛截至提交时间为9月24日17:00，排行榜最后一次刷新时间为9月24日18:00。初赛阶段未产出成绩队伍和未按要求完成实名认证队伍，将被取消参赛资格。（实名认证入口：天池网站-个人中心-认证-支付宝实名认证）；
初赛结束，成绩TOP50团队提交代码审核，规范详见“代码规范”文档，代码提交截止时间9月30日17:00。通过代码审核且通过实名认证的排名前50名的参赛队伍将进入复赛。

AI生成曾小健

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
打赏
0
评论
第三届Apache Flink 极客挑战赛暨AAIG CUP电商推荐“抱大腿”攻击识别

背景介绍随着互联网的发展，网购成为越来越多人的选择，据阿里巴巴财报显示，2020财年阿里巴巴网站成交总额突破一万亿美元，全球年度活跃消费者达9.60亿。为了满足不同用户的个性化需求，电商平台会根据用户的兴趣爱好推荐合适的商品，从而实现商品排序的千人千面需求。推荐系统常见的召回路径有U2I（User-Item）、I2I（Item-Item）等。特别的，在推荐场景中，为了更好的提升推荐的时效性与准确性，平台会基于全网的用户行为信息进行实时的 U2I 及 I2I 的更新，并且基于用户最近的行为信息进行相关
复制链接

扫一扫