机器学习帮助您挖掘金融欺诈用户-CSDN博客

通过最佳实践帮助您实现上述案例效果

Step1：数据导入MaxCompute

1.1 创建需要上传的本地数据

人员管理表：

字段名	含义	类型	描述
start_point	边的起始节点	string	人
end_point	边的结束节点	string	人
count	关系紧密度	double	数值越大，两人的关系越紧密

源数据：person

已知数据表：

字段名	含义	类型	描述
point	用户名	string	人
point_type	用户类型	string	类型
weight	信用指数	double	指数

源数据：point

1.2 创建MaxCompute表

1.2.1 开通MaxCompute

阿里云实名认证账号访问https://www.aliyun.com/product/odps ，开通MaxCompute，选择按量付费进行购买。

1.2.2 数加上创建MaxCompute project

操作步骤:

步骤1: 进入数加管理控制台，前面开通MaxCompute成功页面，点击管理控制台，或者导航产品->大数据（数加）->MaxCompute 点击”管理控制台“。

步骤2: 创建项目。付费模式选择I/O后付费，输入项目名称：

步骤3: 创建MaxCompute表。进入大数据开发套件的数据开发页面：

以开发者身份进入阿里云数加平台>大数据开发套件>管理控制台，点击对应项目操作栏中的进入工作区

1.2.3 创建表

点击菜单数据管理，右上新建表

1.2.4 填写信息配置

在新建表页面中填写基础信息的各配置项，点击下一步

在新建表页面中填写字段和分区信息的各配置项

1.2.5 点击提交

新建表提交成功后，系统将自动跳转返回数据表管理界面，点击我管理的表即可看到新建表

1.3 导入本地文件

进入大数据开发套件控制台，点击对应项目的进入工作区，点击菜单数据开发-->导入-->导入本地数据

选择目标表，并选择字段匹配方式，点击导入

文件导入成功后，系统右上角将提示文件导入成功，同时可以执行select语句查看数据

同样方法创建已知数据表

注意：如果原始字符集设GBK中文出现乱码，可改为UTF-8

Step2：机器学习中的数据准备

进入机器学习管理控制台，点击对应项目的进入机器学习

选择需要的租户及工作空间，点击“提交”

进入机器学习页面后，右击我的实验点击新建空白实验，输入实验名和实验描述
TB16T.UOVXXXXXsXVXXXXXXXXXX-351-249.png

切换到组件栏，向画布中拖入读数据表，点击读数据表，在右侧表选择栏填入你的MaxCompute表

切换到字段信息栏，可以查看输入表的字段名、数据类型和前100行数据的数值分布

右击读数据表，点击从此处开始执行，执行完毕后点击查看数据

Step3：数据探索流程

实验流程图：

TB1XD.HOVXXXXcfaXXXXXXXXXXX-751-601.png

3.1 最大联通子图

在无向图G中，若从顶点A到顶点B有路径相连，则称A和B是连通的；若在图G中存在若干子图，其中每个子图中所有顶点之间都是连通的，但在不同子图间不存在顶点连通，那么称图G的这些子图为最大联通子图。图算法的输入数据是关系图谱结构的。最大联通子图可以找到有通联关系的最大集合，在团伙发现的场景中可以排除掉一些与风控场景无关的人。本次实验通过“最大联通子图”组件将数据中的群体分为两部分，并赋予group_id。

切换至组件栏，向画布中拖入网络分析-->最大联通子图，点击最大联通子图，在右侧字段设置中进行填写

右击最大联通子图点击执行后，查看数据

3.2 SQL脚本

向画布中拖入工具-->SQL脚本，点击SQL脚本，在右侧写SQL语句

select node1 from ${t1} where grp_id='Noah';

右击SQL脚本点击执行后，查看数据

3.3 JOIN

向画布中拖入数据预处理-->数据合并-->JOIN，分别与SQL脚本和人员数据表连接，点击JOIN，在右侧进行字段设置

注意：要将odps源的输出和SQL脚本的输出分别与JOIN组件进行关联

右击JOIN点击执行后，查看数据

3.4 单源最短路径

通过“单源最短路径”组件探查出每个人的一度人脉、二度人脉关系等。distance讲的是“Enoch”通过几个人可以联络到目标人。

向画布中拖入网络分析-->单源最短路径，将关联节点输出到单源最短路径，点击单源最短路径，在右侧进行设置

右击单源最短路径点击执行，查看数据

3.5 标签传播分类

“标签传播分类”算法为半监督的分类算法，原理是用已标记节点的标签信息去预测未标记节点的标签信息。在算法执行过程中，每个节点的标签按相似度传播给相邻节点。

向画布中拖入网络分析-->标签传播分类，将关联节点输入边表，已知数据输入顶点表，点击标签传播分类，在右侧进行设置

TB1XX.WOVXXXXaaXVXXXXXXXXXX-277-187.png

右击标签传播分类点击执行，查看数据

TB1RQ3.OVXXXXauXpXXXXXXXXXX-915-545.png

3.6 导入打标数据

调用“标签传播分类”组件除了要有所有人员的通联图数据以外，还要有人员打标数据。这里通过“已知数据-读odps”组件导入打标数据(weight表示目标是欺诈用户的概率)：

3.7 SQL脚本

通过SQL对结果进行筛选，最终结果展现的是每个人涉嫌欺诈的概率，数值越大表示是欺诈用户的概率越大

向画布中拖入工具-->SQL脚本，将标签传播分类的输出表连接到SQL脚本，点击SQL脚本，在右侧写SQL语句：

select * from ${t1} where tag='欺诈用户';

右击SQL脚本点击执行，查看数据