机器学习帮助您挖掘金融欺诈用户

通过最佳实践帮助您实现上述案例效果

Step1:数据导入MaxCompute

1.1 创建需要上传的本地数据

人员管理表:

字段名 含义 类型 描述
start_point 边的起始节点 string
end_point 边的结束节点 string
count 关系紧密度 double 数值越大,两人的关系越紧密

源数据:person

已知数据表:

字段名 含义 类型 描述
point 用户名 string
point_type 用户类型 string 类型
weight 信用指数 double 指数

源数据:point

1.2 创建MaxCompute表

1.2.1 开通MaxCompute

阿里云实名认证账号访问https://www.aliyun.com/product/odps ,开通MaxCompute,选择按量付费进行购买。

<a href=https://img.alicdn.com/tps/TB1TxkNOVXXXXaUaXXXXXXXXXXX-1124-472.png" width="836">

<a href=https://img.alicdn.com/tps/TB1qRw3OVXXXXX_XFXXXXXXXXXX-1243-351.png" width="836">

<a href=https://img.alicdn.com/tps/TB1gvgQOVXXXXXUXVXXXXXXXXXX-1208-337.png" width="836">

1.2.2 数加上创建MaxCompute project

操作步骤:

步骤1: 进入数加管理控制台,前面开通MaxCompute成功页面,点击管理控制台,或者导航产品->大数据(数加)->MaxCompute 点击”管理控制台“。

<a href=http://docs-aliyun.cn-hangzhou.oss.aliyun-inc.com/assets/pic/49126/cn_zh/1487754370705/a1.png" width="836">

步骤2: 创建项目。付费模式选择I/O后付费,输入项目名称:

a2.png

步骤3: 创建MaxCompute表。进入大数据开发套件的数据开发页面:

以开发者身份进入阿里云数加平台>大数据开发套件>管理控制台,点击对应项目操作栏中的进入工作区

TB1rvM2OVXXXXbBXFXXXXXXXXXX-1092-301.png

1.2.3 创建表

点击菜单数据管理,右上新建表

TB1cY7xOVXXXXXTaFXXXXXXXXXX-1280-310.png

1.2.4 填写信息配置

在新建表页面中填写基础信息的各配置项,点击下一步

TB1j_A6OVXXXXcIXpXXXXXXXXXX-831-499.png

在新建表页面中填写字段和分区信息的各配置项

TB1Nds0OVXXXXb_XFXXXXXXXXXX-830-538.png

1.2.5 点击提交

新建表提交成功后,系统将自动跳转返回数据表管理界面,点击我管理的表即可看到新建表

1.3 导入本地文件

进入大数据开发套件控制台,点击对应项目的进入工作区,点击菜单数据开发-->导入-->导入本地数据

TB1SSwFOVXXXXX9apXXXXXXXXXX-800-662.png

选择目标表,并选择字段匹配方式,点击导入

TB1x0w3OVXXXXXRXFXXXXXXXXXX-798-408.png

文件导入成功后,系统右上角将提示文件导入成功,同时可以执行select语句查看数据

TB1lEEOOVXXXXadaXXXXXXXXXXX-416-473.png

同样方法创建已知数据表

注意:如果原始字符集设GBK中文出现乱码,可改为UTF-8

Step2:机器学习中的数据准备

进入机器学习管理控制台,点击对应项目的进入机器学习

a3.png

选择需要的租户及工作空间,点击“提交”

1

进入机器学习页面后,右击我的实验点击新建空白实验,输入实验名和实验描述
TB16T.UOVXXXXXsXVXXXXXXXXXX-351-249.png

TB1xLo_OVXXXXaQXpXXXXXXXXXX-401-384.png

切换到组件栏,向画布中拖入读数据表,点击读数据表,在右侧表选择栏填入你的MaxCompute表

TB1zgRdPXXXXXbPXXXXXXXXXXXX-915-279.png

TB1XpgYOVXXXXcmXFXXXXXXXXXX-1272-301.png

切换到字段信息栏,可以查看输入表的字段名、数据类型和前100行数据的数值分布

TB1RVoYOVXXXXcCXFXXXXXXXXXX-281-214.png

右击读数据表,点击从此处开始执行,执行完毕后点击查看数据

TB14_wEOVXXXXaQapXXXXXXXXXX-504-460.png

Step3:数据探索流程

实验流程图:

TB1XD.HOVXXXXcfaXXXXXXXXXXX-751-601.png

3.1 最大联通子图

在无向图G中,若从顶点A到顶点B有路径相连,则称A和B是连通的;若在图G中存在若干子图,其中每个子图中所有顶点之间都是连通的,但在不同子图间不存在顶点连通,那么称图G的这些子图为最大联通子图。图算法的输入数据是关系图谱结构的。最大联通子图可以找到有通联关系的最大集合,在团伙发现的场景中可以排除掉一些与风控场景无关的人。本次实验通过“最大联通子图”组件将数据中的群体分为两部分,并赋予group_id。

切换至组件栏,向画布中拖入网络分析-->最大联通子图,点击最大联通子图,在右侧字段设置中进行填写

TB1DzQHOVXXXXaoapXXXXXXXXXX-1219-230.png

右击最大联通子图点击执行后,查看数据

TB1BzRpPXXXXXaFXpXXXXXXXXXX-319-342.png

3.2 SQL脚本

向画布中拖入工具-->SQL脚本,点击SQL脚本,在右侧写SQL语句

select node1 from ${t1} where grp_id='Noah';

TB1hXldPXXXXXbMXXXXXXXXXXXX-1204-405.png

右击SQL脚本点击执行后,查看数据

TB1uJk_OVXXXXa4XVXXXXXXXXXX-287-334.png

3.3 JOIN

向画布中拖入数据预处理-->数据合并-->JOIN,分别与SQL脚本和人员数据表连接,点击JOIN,在右侧进行字段设置

注意:要将odps源的输出和SQL脚本的输出分别与JOIN组件进行关联

TB1ZqAzOVXXXXXiapXXXXXXXXXX-935-301.png

TB1nlkVOVXXXXc5XFXXXXXXXXXX-941-320.png

右击JOIN点击执行后,查看数据

TB1jt0CPXXXXXXjXXXXXXXXXXXX-412-389.png

3.4 单源最短路径

通过“单源最短路径”组件探查出每个人的一度人脉、二度人脉关系等。distance讲的是“Enoch”通过几个人可以联络到目标人。

向画布中拖入网络分析-->单源最短路径,将关联节点输出到单源最短路径,点击单源最短路径,在右侧进行设置

TB1yxMuOVXXXXb_apXXXXXXXXXX-288-260.png

TB1yxE_OVXXXXbfXpXXXXXXXXXX-285-119.png

TB11CRXPXXXXXcOXXXXXXXXXXXX-276-187.png

右击单源最短路径点击执行,查看数据

TB1X30dPXXXXXb3XXXXXXXXXXXX-745-388.png

3.5 标签传播分类

“标签传播分类”算法为半监督的分类算法,原理是用已标记节点的标签信息去预测未标记节点的标签信息。在算法执行过程中,每个节点的标签按相似度传播给相邻节点。

向画布中拖入网络分析-->标签传播分类,将关联节点输入边表,已知数据输入顶点表,点击标签传播分类,在右侧进行设置

TB19rUTOVXXXXbSXVXXXXXXXXXX-287-469.png

TB1Gm0gPXXXXXbfXXXXXXXXXXXX-276-255.png

TB1XX.WOVXXXXaaXVXXXXXXXXXX-277-187.png

右击标签传播分类点击执行,查看数据

TB1RQ3.OVXXXXauXpXXXXXXXXXX-915-545.png

3.6 导入打标数据

调用“标签传播分类”组件除了要有所有人员的通联图数据以外,还要有人员打标数据。这里通过“已知数据-读odps”组件导入打标数据(weight表示目标是欺诈用户的概率):

TB1hAkJOVXXXXa0aXXXXXXXXXXX-692-137.png

3.7 SQL脚本

通过SQL对结果进行筛选,最终结果展现的是每个人涉嫌欺诈的概率,数值越大表示是欺诈用户的概率越大

向画布中拖入工具-->SQL脚本,将标签传播分类的输出表连接到SQL脚本,点击SQL脚本,在右侧写SQL语句:

select * from ${t1} where tag='欺诈用户';

TB1cNVhPXXXXXaJXXXXXXXXXXXX-531-388.png

右击SQL脚本点击执行,查看数据

TB12TxhPXXXXXX1XXXXXXXXXXXX-713-299.png

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值