广告反作弊思路分享

目录

一、业务背景

二、作弊手法调研

三、反作弊数据与体系建设

3.1 常用数据介绍

3.1.1 基础数据

3.1.2 设备指纹介绍

3.2、风险感知与识别手段

3.2.1 基于统计分析

3.2.2 基于无监督学习(会单开文章讲解算法原理、算法实现实例、算法评估方式)

 参考文章及书籍


一、业务背景

互联网广告(买量)是利用各种渠道触达用户,从而达到获取激活设备或增加用户留存的方式。巨量的推广营销费用吸引了黑产的注意,以虚假的下载量/唤起量骗取投放者的营销费用。

作弊的危害有3点:

1)营销资源浪费:投递效果无法科学评估,造成投放费用损失;

2)业务决策偏差:因为被污染的数据源得出失真营销数据,做出错误决策;

3)造成无效流量:虚增的下载或点击次数实际并无价值,无法提升真实的用户留存和真实的用户活跃。

广告反作弊思路

广告反作弊需要牢牢把握住广告的各个环节—— 广告问询、点击、转换、留存;做好风险感知、风险识别、处置。本文后续会一一介绍常用的风险感知与识别方法。

二、作弊手法调研

目前络产的产业链较成熟,作弊逃不开的两大要素——账号和设备,其背后都有完整的资源和服务链条,见图1。针对拉新和拉活的作弊,需要大量设备,获取大量设备的手法包含机器作弊与真人众包两大类。机器作弊包含改机软件/模拟器、群控、静默安装等手段,见表1。真人众包则包含黑产交流群、真人作弊APP平台等手段。其中机器作弊可以在短时间内伪造大量设备,在量级上远高于真人作弊,因此防控机器作弊是拉新和拉活反作弊中的主要工作[1]。同时,由于广告投放还存在归因的步骤,因此,还有一种作弊手段为,媒体获得大量设备id发给广告主,抢夺归因的作弊手段,同见表1。

图1 黑产资源、服务与变现产业链

表1-机器作弊的说明及示例
手段       说明案例展示
改机软件/模
拟器
通过程序修改设备参数,伪造新设备/模拟用户行为进行流量欺骗

硬改,安卓手机改机软件介绍,手机硬改软件,华为小米改串软件拉新工具_哔哩哔哩_bilibili

群控
通过操作多台机进批量攻击的式
想做手机群控工作室,个人怎么搭建群控系统?_模拟器
静默安装
真机,被木马病毒劫持,在用户不知情的情况下在后台自动完成相关操作
被暗中植入木马“拉活”赚钱,两千多万部金立手机成“肉鸡”
刷点击抢归因
通过收集采购大量设备号发给广告主撞自然流量

【广告反作弊】揭秘iOS渠道常见作弊方式及破解方法 - 简书

三、反作弊数据与体系建设

3.1 常用数据介绍

3.1.1 基础数据
说明用途
设备指纹数据
对设备的各类信息的汇总,采集的参数越丰富,策略发挥空间就越
区别正常和异常设备
用户APP内的行为数据
pv,page view 页面打开的次数,无论用户是否浏览里面的子模块,都会记录
mv,module view 页面打开了,用户浏览了页面里的子模块的次数
留存、互动、发表内容、交易等数据
用户画像信息
广告前端信息媒体下发的问询、点击数据

3.1.2 设备指纹介绍

在反作弊中,设备的定义是指用户和业务系统交互的载体,可以是一部手机、一个浏览器等等。而设备指纹则是通过收集客户端设备的特征属性并通过为每台设备生成唯一id来标识这台设备。而手机操作系统和厂商为了方便开发者获取设备信息,预留了一些API,可以用这些API来获取客户端相关的软硬件信息。(注意,根据国家的法律要求,设备指纹在生成ID的过程中,不可以使用用户的个人隐私信息,如通讯录、手机号码、短信等)[2]。

设备API能获取的软硬件数据举例:
类型举例
固件信息Android内核版本、IOS系统版本、机型、机名、品牌、串号、基带版本
基本硬件信息电池状态、电量、屏幕分辨率、陀螺仪信息、CPU核数、类型、频率、线卡MAC地址
SIM卡信息运营商、集成电路卡识别码(ICCID)、基站信息(Cell)、国际移动户识别码 (IMSI)、漫游信息
环境信息定位开启状态、经纬度、络类型、连接状态、线名称、线地址
APP信息设备安装的APP列表、总数、下载渠道、APP安装时间
协议栈信息TCP、IP头信息,如TTL、起IP地址、端号;链路层信息,如Mac地址类
用户信息用户点击、浏览路径信息、操作频率、指压度

注1:设备的指纹不是成不变的,会随着时代的发展,不断更新——如机新增的压感应功能,就会多个参数;再如操作系统对于户隐私保护加强,就会少些参数
注2:随着隐私保护政策的变化,部分厂商对于部分数据不再下发。

3.2、风险感知与识别手段

3.2.1 基于统计分析

统计分析的方法,一般指实际数据与大盘/期望数据是否有较大差异。可以通过一些指标衡量,以下介绍两种比较常用的指标PSI与3sigma,还有一些指标如KL散度、z-score等,若读者感兴趣可以自行搜索。

指标名称说明作用及说明
PSI(Population Stability 

PSI = \sum [(AC - EX) \times ln(\frac{AC}{EX})]

其中,AC表示实际分布,EX表示期望

衡量当前分布与期望分布是否有显著差异
3sigma模型[3]

数据需要服从正态分布:在3∂原则下,异常值如超过3倍标准差,那么可以将其视为异常值。

如果数据不服从正态分布,也可以用远离平均值的多少倍标准差来描述。

 正负3∂的概率是99.7%,那么距离平均值3∂之外的值出现的概率为P(|x-u| 3∂) = 0.003,属于极个别的小概率事件。

3.2.2 基于无监督学习(会单开文章讲解算法原理、算法实现实例、算法评估方式)

无监督学习主要看异常监测聚类、社区发现算法几类,常见的算法如下:

能使用无监督学习的业务假设有以下2点:

  • 异常的设备与正常设备有差异,
  • 异常的设备是聚集出现的(因为激活的动机是薅羊毛,如果只激活一两个,那么就薅不回成本)

无监督算法的难点:

  • 若标签不足,则难以评估算法
  • 部分算法需要提前设定超参数

 参考文章及书籍

本文引用的文章包括:

[1] 威胁猎人《2022年黑灰产业研究报告》

[2]《风控要略——互联网业务反欺诈之路》

[3] ​​​​​https://www.cnblogs.com/tgzhu/p/13954984.html

推荐的其他文章:

  • 6
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值