通过最佳实践帮助您实现上述案例效果
Step1:数据导入MaxCompute
1.1 创建需要上传的本地数据
人员管理表:
字段名 | 含义 | 类型 | 描述 |
start_point | 边的起始节点 | string | 人 |
end_point | 边的结束节点 | string | 人 |
count | 关系紧密度 | double | 数值越大,两人的关系越紧密 |
源数据:person
已知数据表:
字段名 | 含义 | 类型 | 描述 |
point | 用户名 | string | 人 |
point_type | 用户类型 | string | 类型 |
weight | 信用指数 | double | 指数 |
源数据:point
1.2 创建MaxCompute表
1.2.1 开通MaxCompute
阿里云实名认证账号访问https://www.aliyun.com/product/odps ,开通MaxCompute,选择按量付费进行购买。
https://img.alicdn.com/tps/TB1TxkNOVXXXXaUaXXXXXXXXXXX-1124-472.png" width="836">
https://img.alicdn.com/tps/TB1qRw3OVXXXXX_XFXXXXXXXXXX-1243-351.png" width="836">
https://img.alicdn.com/tps/TB1gvgQOVXXXXXUXVXXXXXXXXXX-1208-337.png" width="836">
1.2.2 数加上创建MaxCompute project
操作步骤:
步骤1: 进入数加管理控制台,前面开通MaxCompute成功页面,点击管理控制台,或者导航产品->大数据(数加)->MaxCompute 点击”管理控制台“。
http://docs-aliyun.cn-hangzhou.oss.aliyun-inc.com/assets/pic/49126/cn_zh/1487754370705/a1.png" width="836">
步骤2: 创建项目。付费模式选择I/O后付费,输入项目名称:
步骤3: 创建MaxCompute表。进入大数据开发套件的数据开发页面:
以开发者身份进入阿里云数加平台>大数据开发套件>管理控制台,点击对应项目操作栏中的进入工作区
1.2.3 创建表
点击菜单数据管理,右上新建表
1.2.4 填写信息配置
在新建表页面中填写基础信息的各配置项,点击下一步
在新建表页面中填写字段和分区信息的各配置项
1.2.5 点击提交
新建表提交成功后,系统将自动跳转返回数据表管理界面,点击我管理的表即可看到新建表
1.3 导入本地文件
进入大数据开发套件控制台,点击对应项目的进入工作区,点击菜单数据开发-->导入-->导入本地数据
选择目标表,并选择字段匹配方式,点击导入
文件导入成功后,系统右上角将提示文件导入成功,同时可以执行select语句查看数据
同样方法创建已知数据表
注意:如果原始字符集设GBK中文出现乱码,可改为UTF-8
Step2:机器学习中的数据准备
进入机器学习管理控制台,点击对应项目的进入机器学习
选择需要的租户及工作空间,点击“提交”
进入机器学习页面后,右击我的实验点击新建空白实验,输入实验名和实验描述
切换到组件栏,向画布中拖入读数据表,点击读数据表,在右侧表选择栏填入你的MaxCompute表
切换到字段信息栏,可以查看输入表的字段名、数据类型和前100行数据的数值分布
右击读数据表,点击从此处开始执行,执行完毕后点击查看数据
Step3:数据探索流程
实验流程图:
3.1 最大联通子图
在无向图G中,若从顶点A到顶点B有路径相连,则称A和B是连通的;若在图G中存在若干子图,其中每个子图中所有顶点之间都是连通的,但在不同子图间不存在顶点连通,那么称图G的这些子图为最大联通子图。图算法的输入数据是关系图谱结构的。最大联通子图可以找到有通联关系的最大集合,在团伙发现的场景中可以排除掉一些与风控场景无关的人。本次实验通过“最大联通子图”组件将数据中的群体分为两部分,并赋予group_id。
切换至组件栏,向画布中拖入网络分析-->最大联通子图,点击最大联通子图,在右侧字段设置中进行填写
右击最大联通子图点击执行后,查看数据
3.2 SQL脚本
向画布中拖入工具-->SQL脚本,点击SQL脚本,在右侧写SQL语句
select node1 from ${t1} where grp_id='Noah';
右击SQL脚本点击执行后,查看数据
3.3 JOIN
向画布中拖入数据预处理-->数据合并-->JOIN,分别与SQL脚本和人员数据表连接,点击JOIN,在右侧进行字段设置
注意:要将odps源的输出和SQL脚本的输出分别与JOIN组件进行关联
右击JOIN点击执行后,查看数据
3.4 单源最短路径
通过“单源最短路径”组件探查出每个人的一度人脉、二度人脉关系等。distance讲的是“Enoch”通过几个人可以联络到目标人。
向画布中拖入网络分析-->单源最短路径,将关联节点输出到单源最短路径,点击单源最短路径,在右侧进行设置
右击单源最短路径点击执行,查看数据
3.5 标签传播分类
“标签传播分类”算法为半监督的分类算法,原理是用已标记节点的标签信息去预测未标记节点的标签信息。在算法执行过程中,每个节点的标签按相似度传播给相邻节点。
向画布中拖入网络分析-->标签传播分类,将关联节点输入边表,已知数据输入顶点表,点击标签传播分类,在右侧进行设置
右击标签传播分类点击执行,查看数据
3.6 导入打标数据
调用“标签传播分类”组件除了要有所有人员的通联图数据以外,还要有人员打标数据。这里通过“已知数据-读odps”组件导入打标数据(weight表示目标是欺诈用户的概率):
3.7 SQL脚本
通过SQL对结果进行筛选,最终结果展现的是每个人涉嫌欺诈的概率,数值越大表示是欺诈用户的概率越大
向画布中拖入工具-->SQL脚本,将标签传播分类的输出表连接到SQL脚本,点击SQL脚本,在右侧写SQL语句:
select * from ${t1} where tag='欺诈用户';
右击SQL脚本点击执行,查看数据