【数据产品案例】周志华团队和蚂蚁金服合作：用分布式深度森林算法检测套现欺诈

最新推荐文章于 2023-02-04 18:02:42 发布

稻蛙

最新推荐文章于 2023-02-04 18:02:42 发布

阅读量2.4k

点赞数 1

分类专栏：数据产品案例文章标签：深度森林 GBDT MART 套现欺诈异常检测

本文链接：https://blog.csdn.net/u013382288/article/details/80471807

版权

数据产品案例专栏收录该内容

76 篇文章 12 订阅

订阅专栏

 
 案例来源：@AI科技大本营 

 
 案例地址： 
 https://mp.weixin.qq.com/s?__biz=MzI0ODcxODk5OA==&mid=2247495146&idx=1&sn=5cd9a49fcc52fa429c689880a08d095f&chksm=e99ede13dee95705947a2de932d8c1ea5c6dbcb7954b9ee11b80b7220d577705d129c4acc3ac&scene=0#rd 

 
 1. 目标：改进现有模型，对套现欺诈进行检测 

 
 2. 数据： 

 
 1）买家身份信息 

 
 2）卖家身份信息 

 
 3）当笔交易特征 

 
 4）历史交易特征 

 
 3. 过程： 

 
 1）由于原始数据共有5000维，因此训练MART树，计算出特征的重要性分数，实验中选择前300维就有较好的性能 

 
 2）根据300维特征，训练深度森林。（深度森林由多层模块组成，每层的基础模块是MART树；对于每个基础模块，输入是上一层的类别输出和原始的输入数据；对每一层进行验证，当准确率不再提高时，级联过程结束 

 
 4. 结果： 

 
 1）性能：在AUC、F1与KS指标评估下，均好于现有模型 

 
 2）经济效益：之前最好的模型是600棵树的MART模型，深度森林模型每个MART模块用200棵树 

 
 3）鲁棒性 

 
 （补充资料： 
 https://mp.weixin.qq.com/s/d54phy7IfTpyRSkYOS8bpw 
 ） 

 
 多粒度级联森林 

 
 1. 深度模型有效的要点： 

 
 1）层层处理 

 
 2）特征转换：原始特征不能有效表达分类信息或者人工难以构建有效的特征，因此需要进行特征转换。如图片、视频 

 
 3）足够的模型复杂度 

 
 2. 深度模型的缺点： 

 
 1）太多超参数要调 

 
 2）结构确定后复杂度也定死了 

 
 3）需要大量数据 

 
 4）理论分析复杂 

 
 5）黑盒 

 
 6）面对不可微问题无法用反向传播 

 
 3. 树模型相对于深度神经网络的缺点： 

 
 1）缺乏足够的模型复杂度 

 
 2）不管是RF还是GBDT，都只使用了原始特征 

 
 4. 提出多粒度级联森林，优点： 

 
 1）拥有特征转换能力，多层结构提高模型复杂度 

 
 2）更少的超参数 

 
 3）根据数据量自适应模型复杂度 

 
 5. 多粒度级联森林 

 
 1）特征转换与多级处理： 

 
 a. 每层多个不同的随机森林，以提高集成效果 

 
 b. 每层森林的输出结果作为下一层的增强特征。如某一层有4个森林，训练的是三分类问题，那么下一层会接收到4*3=12个增强特征 

 
 c. 每一层使用上一层的增强特征+原始特征进行训练 

 
 d. 直到训练的评估函数不再提升，停止加层 

 
 （树中包含完全随机树，是为了保留原始信息？还是如文中所言，是为了探索未标记数据的信息？） 

 
 2）多粒度：用于处理图片或音频等原始数据，采用滑动窗口的方式进行切片采样。下图是序列数据，类别数为3。 

 
 a. 原始400维样本，以100维为窗口期滑动采样，这样获得了301个样本，每个样本100维度 

 
 b. 用301个样本训练完全随机森林和随机森林 

 
 c. 每个森林的输出结果是301个样本在3个类别上的score 

 
 d. 将301*3的输出结果展开，森林之间结果进行拼接，得到新的特征表示 

 
 3）多粒度+多级处理： 

稻蛙

关注

1
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录