风控
BUPT-WT
不积硅步无以至千里,不积小流无以成江海
展开
-
不均衡学习
一、简介 在很多场景的数据集中,都会出现某一类数据的数量远远多于其它类的数据,一般都是以二分类的类别不平衡问题为主。一个简单的理解,假如某个数据集,10万个正样本(正常用户标签为0)与1000个负样本(有问题用户标签为1),正负样本比例为100:1,如果模型学习每一次梯度下降使用全量样本,负样本的权重不到1/100,即使完全不学习负样本的信息,准确率也有99%,所以实际应用...原创 2020-03-31 10:11:07 · 1402 阅读 · 1 评论 -
无监督算法与异常检测
一、整体概览 反欺诈往往看做是二分类问题,但是仔细想想是多分类问题,因为每种不同类型的欺诈都当做是一种单独的类型。欺诈除了多样并且不断变化,欺诈检测还面临一下问题: 1). 由于大部分情况数据是没有标签的,各种成熟的监督学习是没有办法应用 2). 区分噪音和异常点时难度比较大,甚至需要一点点经验 3). 当多种不同的欺诈结合在一起时,区分欺...原创 2020-03-30 11:19:42 · 9910 阅读 · 0 评论 -
社交网络分析与反欺诈
一、总体概述 目前针对图网络结构,比较热门的一个部分就是知识图谱,知识图谱是基于二元关系知识库,构成网络结构,基本组成单位是”实体-关系-实体“的三元组,实体之间通过关系相互联结。主要可以应用的场景有:风险预测、反欺诈、精准营销、智能搜索等常用的是采用个人信息进行一个场景构建,构建知识图谱的流程例子如下所示:1、通过对数据进行清理,抽取,构建知识图谱的节点,比如:姓名、ip、...原创 2020-03-29 12:51:45 · 3283 阅读 · 4 评论 -
知识图谱学习笔记-非结构化数据处理
非结构话数据到知识图谱非结构数据-> 信息抽取(命名实体识别、关系抽取)-> 图谱构建(实体消歧、链接预测)-> 图分析算法一、文本分析关键技术拼写纠错 分词 词干提取 词的过滤 文本的表示 文本相似度 词向量 句子向量 实体命名识别二、拼写纠错input -> correction 天起 -> 天气 theris -...原创 2019-09-15 14:00:04 · 5711 阅读 · 1 评论 -
知识图谱学习笔记-风控算法介绍
一、风控算法的评估1、搭建风控模型数据(KG)-特征工程-模型特征工程:申请人相关特征:年龄、收入、工作性质等等从知识图谱提取出的特征: 1)从规则提取出来的特征:申请人是不是第一次借款(0 or 1) 申请人的朋友之前有没有逾期过(0 or 1) 2)直接提取出来的特征: 申请人的二度关系中有多少个节点触碰了黑名单(如10个)...原创 2019-09-13 16:31:54 · 4285 阅读 · 0 评论 -
知识图谱学习笔记-Cypher语句使用
一、Cypher Neo4j的SQLmatch 相当于SQL selectmatch (node)-[relationship]->(node)where (node | relationship)return (node | relationship)查询label: match (n:Person) re...原创 2019-09-13 14:05:41 · 993 阅读 · 0 评论 -
知识图谱学习笔记-知识图谱介绍
一、什么是知识图谱?解释1: 知识图谱本质上是语义网络 (本体论是语义网落的重要因素)解释2: 知识图谱也叫做多关系图,由多种类型的节点和多种类型的边组成构建知识图谱系统中所涉及到的技术数据获取:数据爬虫、数据库读取数据预处理:数据清洗、知识抽取、信息抽取、消歧分析等导入到知识图谱:数据筛选、知识图谱设计、批量导入、增量导入应用层搭建:各类模型搭建、GraphX...原创 2019-09-13 11:07:09 · 590 阅读 · 0 评论 -
风控特征学习笔记
总体业务建模流程: 1、将业务抽象为分类or回归问题2、定义标签,得到y3、选取合适的样本,并匹配出全部的信息作为特征的来源4、特征工程 + 模型训练 + 模型评价与调优(相互之间可能会有交互)5、输出模型报告6、上线与监控什么是特征?在机器学习的背景下,特征是用来解释现象发生的单个特性或一组特性。 当这些特性转换为某种可度量的形式时,它们被称为特征。...原创 2019-09-04 11:34:45 · 1739 阅读 · 0 评论 -
风控模型学习笔记
# encoding = 'utf-8'# Produced By wtimport pandas as pdfrom sklearn.metrics import roc_auc_score,roc_curve,aucfrom sklearn.model_selection import train_test_splitfrom sklearn import metricsfro...原创 2019-09-11 10:05:31 · 736 阅读 · 0 评论 -
风控项目-收集基础知识2
构建信用风险类型的特征模型处理的一般流程数据预处理(时间格式、缺失值、机值)- >特征构造(计数、比例、距离)->特征选择(相关性、差异性、显著性)->模型参数估计(回归系数、模型复杂度)数据预处理(时间格式、缺失值、极值)1、数据格式处理:原始数据带有一定的格式,需要转换成正确的格式例如:利率 %-》需要转化为浮点数 日期:nov-17需要转化为python...原创 2018-08-10 07:57:39 · 1000 阅读 · 0 评论 -
风控项目-收集基础知识1
信用违约风险的基本概念交易对手未能履行约定中的义务而造成的经济损失的风险(时间)违约指标:(PD)违约概率:当前没有发生未来可能发生的可能性(LGD)违约条件下的损失率:有信贷机构催收期(EAD)违约风险下的敞口暴露:当前已经发生违约情况下欠多少钱信用违约的主体:个人违约:个人向金融机构,在设定期限内没有偿还公司违约:公司向金融机构没有还款,或者公司发行债券没有履行...原创 2018-08-09 08:16:24 · 852 阅读 · 0 评论