广告流量反作弊风控中的模型应用

最新推荐文章于 2024-11-13 19:06:35 发布

浪尖聊大数据-浪尖

最新推荐文章于 2024-11-13 19:06:35 发布

阅读量841

点赞数

文章标签：聚类 python 数据挖掘机器学习人工智能

原文链接：https://mp.weixin.qq.com/s?__biz=MzUyMDA4OTY3MQ==&mid=2247509051&idx=1&sn=37b5c70cfbc1e01fb4dae0fb7d37b688&chksm=f9ed5d13ce9ad4056d4d51a89e12f6c1289d6616347d213c001187e5d8a5836ed68de923f829&scene=126&sessionid=0

版权

作者：vivo 互联网安全团队- Duan Yunxin

商业化广告流量变现，媒体侧和广告主侧的作弊现象严重，损害各方的利益，基于策略和算法模型的业务风控，有效保证各方的利益；算法模型可有效识别策略无法实现的复杂作弊模型，本文首先对广告反作弊进行简介，其次介绍风控系统中常用算法模型，以及实战过程中具体风控算法模型的应用案例。

一、广告反作弊简介

1.1 广告流量反作弊定义

广告流量作弊，即媒体通过多种作弊手段，获取广告主的利益。

作弊流量主要来自于：

模拟器或者被篡改了设备的广告流量；
真设备，但通过群控控制的流量；
真人真机，但诱导产生无效流量等。

1.2 常见的作弊行为

机器行为: IP重复刷量、换不同IP重复刷量，流量劫持，换不同imei重复刷量等。
人工行为：素材交互要素诱导点击，媒体渲染文案诱导点击，突然弹出误触点击等。

1.3 常见作弊类型

按照广告投放流程顺序

展示作弊：媒体将多个展示广告同时曝光于同一个广告位，向广告主收取多个广告的展示费用。
点击作弊：通过脚本或计算机程序模拟真人用户，又或者雇佣和激励诱导用户进行点击，生成大量无用广告点击，获取广告主的CPC广告预算。
安装作弊：通过测试机或模拟器模拟下载，以及通过移动人工或者技术手段修改设备信息、SDK方式发送虚拟信息、模拟下载等等。

二、广告流量反作弊算法体系

2.1 算法模型在业务风控中应用背景

智能风控，运用大量行为数据构建模型，对风险进行识别和感知监控，相比规则策略，显著提升识别的准确性和覆盖率以及稳定性。

常见的无监督算法：

密度聚类(DBSCAN)
孤立森林(Isolation Forest)
K均值算法

常见有监督算法：

逻辑回归(logistic)
随机森林 (random forest)

2.2 广告流量模型算法体系

体系分四层：

平台层：主要是依托spark-ml/tensorflow/torch算法框架基础上，引用开源以及自定义开发的算法应用于业务风控建模中。
数据层：搭建vaid/ip/媒体/广告位等多粒度下，请求、曝光、点击、下载、激活等多转化流程的画像和特征体系，服务于算法建模。
业务模型层：基于行为数据特征和画像数据，搭建点击反作弊审计模型、请求点击风险预估模型、媒体行为相似团伙模型以及媒体粒度异常感知等模型。
接入层：模型数据的应用，离线点击反作弊模型审计结果与策略识别审计结果汇总，同步业务下游处罚；媒体异常感知模型主要作为候选名单同步点检平台和自动化巡检进行。

三、算法模型应用案例

3.1 素材交互诱导感知

背景：广告素材中添加虚拟的X关闭按钮，导致用户关闭广告时点击的虚假的X按钮，导致无效的点击流量，同时影响用户体验；左图是投放的原始素材，右侧是用户点击的坐标绘制热力图，虚拟X导致用户关闭广告时产生无效的点击流量。

模型识别感知：

1、密度聚类(DBSCAN)：

先定义几个概念：

邻域：对于任意给定样本x和距离ε，x的ε邻域是指到x距离不超过ε的样本的集合;
核心对象：若样本x的ε邻域内至少包含minPts个样本，则x是一个核心对象;
密度直达：若样本b在a的ε邻域内，且a是核心对象，则称样本b由样本x密度直达;
密度可达：对于样本a，b，如果存在样例p1，p2，...，pn，其中，p1=a，pn=b，且序列中每一个样本都与它的前一个样本密度直达，则称样本a与b密度可达;
密度相连：对于样本a和b，若存在样本k使得a与k密度可达，且k与b密度可达，则a与b密度相连；
所定义的簇概念为：由密度可达关系导出的最大密度相连的样本集合，即为最终聚类的一个簇。

2、应用算法对诱导误触广告感知：

①首先按照分辨率和广告位，对点击数据进行分组，筛选过滤掉量级较小的群组；

②对每个群组，使用密度聚类算法进行聚类，设置邻域密度阈值为10，半径ε=5，进行聚类训练；

③对每个群组，密度聚类后，过滤掉簇面积较小的簇，具体训练代码如下：

④效果监控和打击，针对挖掘的簇，关联点击后向指标，针对异常转化指标广告位，进行复检，并对复检有问题广告位进行处置。

3.2 点击反作弊模型

3.2.1 背景

针对广告的点击环节建立作弊点击识别模型，提升反作弊审计覆盖能力，发现高纬度隐藏的作弊行为、有效补充点击场景的策略反作弊审计。

3.2.2 建设流程

（1）特征建设

基于token粒度，计算事件发生前，设备、ip、媒体、广告位的等粒度特征。

频率特征：在过去1分钟，5分钟，30分钟、1小时、1天，7天等时间窗口的曝光，点击、安装行为特征、即对应的均值、方差、离散度等特征；

基本属性特征：媒体类型，广告类型，设备合法性、ip类型，网络类型，设备价值等级等。

2、模型训练和效果

① 样本选择：

样本均衡处理：线上作弊样本和非作弊样本非均衡，采用对非作弊样本下采样方式，使得作弊和非作弊样本量达到均衡(1:1)
鲁棒性样本选取：线上非作弊样本量级大，且群体行为多样性且分布不均等，为了小样本训练上线后覆盖所有行为模式，
使用K-means算法：针对线上非作弊样本进行分群，然后对每个群体按照占比再下采样，获得训练的非作弊样本。

② 特征预处理：

统计每个特征缺失率，去掉缺失率大于50%的特征；
特征贡献度筛选，计算每个特征对预测标签Y的区分度，过滤掉贡献度低于0.001的特征；
特征稳定性筛选，在模型上线前，选取最大和最小时间段的样本，计算两个时间段每个特征的PSI值，过滤掉PSI值(Population Stability Index)大于0.2的特征，保留稳定性较好的特征。

③ 模型训练：

采用随机森林算法，对点击广告作弊行为进行分类，随机森林有较多优势，比如：

（1）能处理很高维度的数据并且不用做特征选择；

（2）对泛化误差(Generalization Error)使用的是无偏估计，模型泛化能力强；

（3）训练速度快，容易做成并行化方法(训练时树与树之间是相互独立的)；

（4）抗过拟合能力比较强；

超参数搜索优化，使用ParamGridBuilder，配置max_depth(树最大深度),numTrees(树的个数)等超参数的进行搜索优化最优超参数。