【数据产品案例】周志华团队和蚂蚁金服合作:用分布式深度森林算法检测套现欺诈

案例来源:@AI科技大本营

1. 目标:改进现有模型,对套现欺诈进行检测

2. 数据:
1)买家身份信息
2)卖家身份信息
3)当笔交易特征
4)历史交易特征

3. 过程:
1)由于原始数据共有5000维,因此训练MART树,计算出特征的重要性分数,实验中选择前300维就有较好的性能
2)根据300维特征,训练深度森林。(深度森林由多层模块组成,每层的基础模块是MART树;对于每个基础模块,输入是上一层的类别输出和原始的输入数据;对每一层进行验证,当准确率不再提高时,级联过程结束


4. 结果:
1)性能:在AUC、F1与KS指标评估下,均好于现有模型
2)经济效益:之前最好的模型是600棵树的MART模型,深度森林模型每个MART模块用200棵树
3)鲁棒性



多粒度级联森林
1. 深度模型有效的要点:
1)层层处理
2)特征转换:原始特征不能有效表达分类信息或者人工难以构建有效的特征,因此需要进行特征转换。如图片、视频
3)足够的模型复杂度
2. 深度模型的缺点:
1)太多超参数要调
2)结构确定后复杂度也定死了
3)需要大量数据
4)理论分析复杂
5)黑盒
6)面对不可微问题无法用反向传播
3. 树模型相对于深度神经网络的缺点:
1)缺乏足够的模型复杂度
2)不管是RF还是GBDT,都只使用了原始特征
4. 提出多粒度级联森林,优点:
1)拥有特征转换能力,多层结构提高模型复杂度
2)更少的超参数
3)根据数据量自适应模型复杂度
5. 多粒度级联森林
1)特征转换与多级处理:
a. 每层多个不同的随机森林,以提高集成效果
b. 每层森林的输出结果作为下一层的增强特征。如某一层有4个森林,训练的是三分类问题,那么下一层会接收到4*3=12个增强特征
c. 每一层使用上一层的增强特征+原始特征进行训练
d. 直到训练的评估函数不再提升,停止加层

(树中包含完全随机树,是为了保留原始信息?还是如文中所言,是为了探索未标记数据的信息?)

2)多粒度:用于处理图片或音频等原始数据,采用滑动窗口的方式进行切片采样。下图是序列数据,类别数为3。
a. 原始400维样本,以100维为窗口期滑动采样,这样获得了301个样本,每个样本100维度
b. 用301个样本训练完全随机森林和随机森林
c. 每个森林的输出结果是301个样本在3个类别上的score
d. 将301*3的输出结果展开,森林之间结果进行拼接,得到新的特征表示

3)多粒度+多级处理:



评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值