数据挖掘
文章平均质量分 92
Eason.wxd
我是Eason,我喂自己袋盐...
展开
-
常用数据分析方法总结
最近优化一个画像产品,用到一些数据分析方法,这里总结一下。主要参考:https://www.jianshu.com/p/809fb2261b23,补充一些细节一、描述统计描述统计是通过图表或数学方法,对数据资料进行整理、分析,并对数据的分布状态、数字特征和随机变量之间关系进行估计和描述的方法。描述统计分为集中趋势分析和离中趋势分析和相关分析三大部分。1.集中趋势分析集中趋势分...转载 2019-11-02 14:06:43 · 6362 阅读 · 0 评论 -
关联分析(二)--FP-Growth算法
转自:https://www.cnblogs.com/datahunter/p/3903413.html关联分析又称关联挖掘,就是在交易数据、关系数据或其他信息载体中,查找存在于项目集合或对象集合之间的频繁模式、关联、相关性或因果结构。关联分析的一个典型例子是购物篮分析。通过发现顾客放入购物篮中不同商品之间的联系,分析顾客的购买习惯。比如,67%的顾客在购买尿布的同时也会购买啤酒。通过了解哪些...转载 2018-12-28 19:55:57 · 6853 阅读 · 1 评论 -
关联分析(一)--Apriori算法
关联分析分为非时序关联分析和时序关联分析,其中非时序关联分析采用Apriori算法,利用先验知识产生频繁项集以及关联规则,而时序关联分析采用GSP算法。Apriori算法其名字是因为算法基于先验知识(prior knowledge).根据前一次找到的频繁项来生成本次的频繁项。Apriori是关联分析中核心的算法。Apriori算法的特点只能处理分类变量,无法处理数值型变量;数据...转载 2018-12-29 13:52:41 · 6937 阅读 · 0 评论 -
异常检测
异常点检测,有时也叫离群点检测,英文一般叫做Novelty Detection或者Outlier Detection,这里就对异常点检测算法做一个总结。1. 异常点检测算法使用场景 什么时候我们需要异常点检测算法呢?常见的有三种情况。一是在做特征工程的时候需要对异常的数据做过滤,防止对归一化等处理的结果产生影响。二是对没有标记输出的特征数据做筛选,找出异常的数据。三是对有标记输出的特...原创 2018-12-04 20:00:04 · 17641 阅读 · 1 评论 -
聚类算法综述(一)
聚类分析提供由个别数据对象到数据对象所指派到簇的抽象。此外,一些聚类技术使用簇原型(即代表簇中其他对象的数据对象)来刻画簇的特征。聚类分析是研究发现最具有代表性的簇原型的技术。注意:簇的定义是不精确的,而最好的定义依赖于数据的特征和期望的结果。聚类分析与其他将数据对象分组的技术有关。1聚类类型不同的聚类类型:层次的(嵌套的)与划分的(非嵌套的),互斥的,重叠的与模糊的,完全的与部分的...原创 2018-12-09 09:55:49 · 14976 阅读 · 0 评论 -
常见分类算法优缺点
本文主要回顾下几个常用算法的适应场景及其优缺点!机器学习算法太多了,分类、回归、聚类、推荐、图像识别领域等等,要想找到一个合适算法真的不容易,所以在实际应用中,我们一般都是采用启发式学习方式来实验。通常最开始我们都会选择大家普遍认同的算法,诸如SVM,GBDT,Adaboost,现在深度学习很火热,神经网络也是一个不错的选择。假如你在乎精度(accuracy)的话,最好的方法就是通过交叉验证(...转载 2018-10-21 21:36:54 · 11299 阅读 · 0 评论 -
关联分析(三)--GSP算法
转自:http://www.cnblogs.com/liuqing910/p/8964863.html关联规则--Apriori算法部分讨论的关联模式概念都强调同时出现关系,而忽略数据中的序列信息(时间/空间):时间序列:顾客购买产品X,很可能在一段时间内购买产品Y;空间序列:在某个点发现了现象A,很可能在下一个点发现现象Y。例:6个月以前购买奔腾PC的客户很可能在一个月内订购新的...转载 2019-05-19 13:17:44 · 3540 阅读 · 2 评论 -
聚类算法综述(二)
看到一篇总结文章,挺好。转自:https://blog.csdn.net/abc200941410128/article/details/78541273。一、简要介绍1、聚类概念聚类就是按照某个特定标准(如距离准则)把一个数据集分割成不同的类或簇,使得同一个簇内的数据对象的相似性尽可能大,同时不在同一个簇中的数据对象的差异性也尽可能地大。即聚类后同一类的数据尽可能聚集到一起,不同数据尽量分...转载 2019-05-10 13:39:57 · 6034 阅读 · 6 评论 -
用户画像
这里不包含算法、技术、架构内容,因为相对来说,用户画像落地比较简单,难的是用户画像的价值落地。用户画像是一个挺新颖的词,最初它是大数据行业言必及之的时髦概念。现在我们谈及用户画像,它也是和精准营销、精细化运营直接钩挂的。这篇文章主要讲产品运营角度的用户画像。什么是用户画像用户画像一点也不神秘,它是根据用户在互联网留下的种种数据,主动或被动地收集,最后加工成一系列的标签。比如猜用户是男是...转载 2019-08-08 23:21:35 · 1300 阅读 · 0 评论 -
评分卡模型开发(十)--总体流程
转自: https://blog.csdn.net/lll1528238733/article/details/76602006 一、信用风险评级模型的类型信用风险计量体系包括主体评级模型和债项评级两部分。主体评级和债项评级均有一系列评级模型组成,其中主体评级模型...转载 2018-11-23 12:57:00 · 10838 阅读 · 0 评论 -
评分卡模型开发(九)--上线监测
转自:https://cloud.tencent.com/developer/article/1016299那么我们的评分卡上线后,如何对评分卡的效果进行有效监测,监测哪些指标,监测的指标阈值达到多少我们需要对现有评分卡进行调整更新?这是我们在评分卡上线后需要持续性监测、关注的问题,今天就来跟大家分享一下互金行业评分卡监测的常用手段。1. 模型稳定性包括评分卡得分分布的PSI(Popu...转载 2018-11-23 10:47:51 · 6780 阅读 · 1 评论 -
评分卡模型开发(八)--主标尺设计及模型验证
转自:https://blog.csdn.net/lll1528238733/article/details/76601930上一步中开发的信用风险评分卡模型,得到的是不同风险等级客户对应的分数,我们还需要将分数与违约概率和评级符号联系起来,以便差异化管理证券公司各面临信用风险敞口的客户,这就需要对证券公司各面临信用风险敞口业务中的个人客户开发一个一致的主标尺。最容易理解、最容易操作的方式就是...转载 2018-11-23 10:45:55 · 7224 阅读 · 1 评论 -
评分卡模型开发(七)--基于逻辑回归的标准评分卡实现
由逻辑回归的基本原理,我们将客户违约的概率表示为p,则正常的概率为1-p。因此,可以得到几率,也叫对数比率:此时,客户违约的概率p可表示为:评分卡设定的分值刻度可以通过将分值表示为比率对数的线性表达式来定义,即可表示为下式:其中,A和B是常数。式中的负号可以使得违约概率越低,得分越高。通常情况下,这是分值的理想变动方向,即高分值代表低风险,低分值代表高风险。 逻辑回归模型计...转载 2018-11-23 10:14:05 · 8401 阅读 · 0 评论 -
评分卡模型开发(一)--用户数据缺失值处理
转自:https://cloud.tencent.com/developer/article/1016341在我们搜集样本时,许多样本中一般都含有缺失值,这种情况在现实问题中非常普遍,这会导致一些不能处理缺失值的分析方法无法应用,因此,在信用风险评级模型开发的第一步我们就要进行缺失值处理。缺失值处理的方法,包括如下几种。 (1) 直接删除含有缺失值的样本。 (2) 根据样本之间的相似性填补缺失...转载 2018-11-23 10:27:41 · 6318 阅读 · 0 评论 -
评分卡模型开发(二)--用户数据异常值处理
转自:https://cloud.tencent.com/developer/article/1016342用户数据缺失值处理见上篇: https://cloud.tencent.com/developer/article/1016341缺失值处理完毕后,我们还需要进行异常值处理。异常值是指明显偏离大多数抽样数据的数值,比如个人客户的年龄大于100时,通常认为该值为异常值。找出样本总体中的...转载 2018-11-23 10:31:30 · 5779 阅读 · 0 评论 -
评分卡模型开发(三)--数据集准备
转自:https://cloud.tencent.com/developer/article/1016333在缺失值和处理完成后,我们就得到了可用作信用风险评级模型开发的样本总体。通常为了验证评级模型的区分能力和预测准确性,我们需要将样本总体分为样本集和测试集,这种分类方法被称为样本抽样。常用的样本抽样方法包括简单随机抽样、分层抽样和整群抽样三种。 简单随机抽样:smp1<-sam...转载 2018-11-23 10:35:10 · 5860 阅读 · 0 评论 -
评分卡模型开发(四)--定量指标筛选
模型开发的前三步主要讲的是数据处理的方法,从第四步开始我们将逐步讲述模型开发的方法。在进行模型开发时,并非我们收集的每个指标都会用作模型开发,而是需要从收集的所有指标中筛选出对违约状态影响最大的指标,作为入模指标来开发模型。接下来,我们将分别介绍定量指标和定性指标的筛选方法。library(InformationValue)library(klaR)data(GermanCredit)...转载 2018-11-23 10:39:25 · 7698 阅读 · 0 评论 -
评分卡模型开发(五)--定性指标筛选
转自:https://cloud.tencent.com/developer/article/1016327定量指标是数值型的,我们还可以用回归的方法来筛选,那么定性的指标怎么办呢? R里面给我们提供了非常强大的IV值计算算法,通过引用R里面的informationvalue包,来计算各指标的IV值,即可得到各定性指标间的重要性度量,选取其中的high predictive指标即可。 有很多小...转载 2018-11-23 10:41:49 · 6832 阅读 · 0 评论 -
评分卡模型开发(六)--WOE值计算
转自:https://cloud.tencent.com/developer/article/1016331对入模的定量和定性指标,分别进行连续变量分段(对定量指标进行分段),以便于计算定量指标的WOE和对离散变量进行必要的降维。对连续变量的分段方法通常分为等距分段和最优分段两种方法。等距分段是指将连续变量分为等距离的若干区间,然后在分别计算每个区间的WOE值。最优分段是指根据变量的分布属性,...转载 2018-11-23 10:43:57 · 9335 阅读 · 0 评论