【子豪兄】精讲CS231N斯坦福计算机视觉公开课(2020最新)_哔哩哔哩_bilibili
一、笔记及摘录
- 我理解的图主要是对象之间复杂的交互关系,第一反应就是人类社会、脑神经元连接。
- 图的现实世界应用主要有:社交网络、影响力传播(类似病毒传播)、知识图谱(在金融领域可用在反欺诈上的团伙欺诈检测)、推荐系统(推荐商品、电影)等。
- 图结构数据上的机器学习:
- 节点预测:预测节点的类别或某类属性的取值例子:对是否是潜在客户分类、对游戏玩家的消费能力做预测
- 边预测:预测两个节点间是否存在链接例子:知识图谱补全、好友推荐、商品推荐
- 图的预测:对不同的图进行分类或预测图的属性例子:分子属性预测
- 节点聚类:检测节点是否形成一个社区例子:社交圈检测
- 图数据是非规则的非结构化的,它具有以下的特点:
- 任意的大小和复杂的拓扑结构;
- 没有固定的节点排序或参考点;
- 通常是动态的,并具有多模态的特征;
- 图的信息并非只蕴含在节点信息和边的信息中,图的信息还包括了图的拓扑结构。
疑问点:何为多模态?何为拓扑结构?
多模态:不同类型数据(模式)之间的关系——通常是图像、视频、音频和文本
拓扑结构:在数学领域,特别是拓扑学中,拓扑结构是指研究空间形态的一个分支,它关注于保持几何形状不变的空间变化,如连通性、欧拉数等。在拓扑学中,实体(如点、线)之间的连接关系被抽象化,以便研究它们在连续映射下的不变性质。这种结构可以用图的形式表示,其中实体被抽象为点,连接关系被抽象为线。
二、拓展(知识图谱在金融行业的应用)
-
知识图谱我理解是把不同种类信息连接到一起形成关系网络,提供从关系角度分析问题的维度。
-
在金融领域中如贷款申请人欺诈风险监测:
-
可以获取尽可能多的数据源,如包括申请人基本信息、申请人的社交数据、运营商数据、多头借贷数据、相关黑名单数据等,尽可能多维度从关系角度刻画申请人欺诈风险可疑程度。例如:比如,有三个人:小明、小红、小王,他们是好朋友,现在已知小明是个欠钱不还的人,小红也是个欠钱不还的人那么做为他们的朋友小王,欠钱不还的机率相对一般人,大一些。这和俗话中说的“近朱者赤近墨者黑”是相同的道理。(对欺诈客户进行标记,利用标签传播算法,用已标记的“坏”节点信息去预测未标记节点的欺诈风险程度,用边来表示两个节点的相似度,节点的风险程度按照相似度传递给其他节点,风险程度通过图的颜色进行可视化展示。)
-
再如团伙欺诈风险监测:
-
如有些团伙欺诈的成员会用虚假的身份去申请贷款,但部分信息是共享的等特点,基于定义好的关联关系,构建一个直观且多维角度的数据视角,形成一个关联关系网络。基于关联关系网络,金融机构可应用关联图谱分析方法结合关系网络数据对数据主体进行分析和审核,提炼风险特征,预测并圈出团伙欺诈人群。
- 在信贷业务场景中主要通过以下方式来探索定义团伙欺诈主体间的关联关系:
- 基于已知的团伙案件进行案例分析,梳理出相似特征,并提炼特征中所包含的关联关系;
- 结合业务经验提炼强关联维度;
- 采用数据分析的方法,提取一度二度关联指标IV值较高的关联关系;
- 采用社团发现算法进行团伙关联关系探索。
- 主要分析方法:
常用的关联图谱分析方法主要有监督模型和无监督模型两种。
监督模型,指的是在已知“好”和“坏”标签的前提下,尝试从历史数据中,挖掘出欺诈团伙的典型特征和行为模式,从而有效地识别出金融欺诈团伙。监督模型虽然在预测准确性上有不错的表现,但实际情况中,“好”和“坏”的标签往往很难得到,具有一定的局限性。
无监督模型在标签信息不足时尤为重要,典型的无监督模型分析方法如下:
1、异常检测
异常检测是在无监督模型学习中比较有代表性的方法,即在数据中找出具有异常性质的点或团体。该算法并不是基于历史数据挖掘隐藏的欺诈模式,因而常常能够有效地识别出新出现的未曾记录的欺诈行为。
比如,在关系网络中,大多数的正常团体应该是独立的节点或少数节点组成的小规模团体(多数可能为家人或亲友关系),而信贷申请团伙往往会选择共享申请信息,并进行错位申请,若在关联图谱中出现多个节点通过错综的关联关系形成规模性团体或特定关系圈时,这些团体则被认为是异常团体。
2、社团发现
社团发现就是通过机器学习的方法从关联图谱中自动发现群聚社团。社团发现既可以是半监督式的,即以一些少量的标注或标签作为种子,也可以无监督式的。
与传统的客户分群不同,社团发现分类算法形成的团体分群不仅依赖于团体中每个个体的特征,还依赖于整个团体作为一个整体的特征,使得团体分群拥有足够丰富的数据维度,通过对团体分群特征进行挖掘提炼,从而发现潜在的、未被发现的团体行为模式和典型特征,如团体总资产、团体总负债、团体性别、团体年龄、团体归属地区等呈现出特定分布规律,作为团伙欺诈识别经验的补充。
除了通过以上方法排查出可疑团体外,还可借助关联图谱的可视化分析功能,如节点查询、关系扩散、节点pagerank值计算、最短路径分析、图谱信息统计等功能,辅助我们进行分析和审核。
线上信贷申请业务中团伙欺诈的关联关系主要从申请基本信息、物理环境信息、社会关系信息、资金流向信息、进件渠道信息等中提取。
-
再如信贷风控中催收环节用知识图谱进行失联补全,挖掘出新的潜在的可能联系人,提高催收成功率。