关闭

如何在Python中实现RFM分析

RFM分析 RFM分析是根据客户活跃程度和交易金额贡献,进行客户价值细分的一种方法; 可以通过R,F,M三个维度,将客户划分为8种类型。 RFM分析过程 1.计算RFM各项分值 R_S,距离当前日期越近,得分越高,最高5分,最低1分 F_S,交易频率越高,得分越高,最高5分,最低1分 M_S,交易金额越高,得...
阅读(7) 评论(0)

#####好好好####关于模型检验的ROC值和KS值的异同_ROC曲线和KS值

关于模型检验的ROC值和KS值的异同_ROC曲线和KS值 按我的理解,ROC曲线是累计坏占比曲线(图中蓝色曲线)下面的面积(>0.5),KS值是累计坏占比曲线-累计好占比曲线差值(图中红色曲线)的最大值。实际上他们都是一样的? 不知道我的理解是否有误?谢谢!     精彩解答: ROC(Receiver Operating Characteristic Cu...
阅读(29) 评论(0)

结合源码分析Spark中的Accuracy(准确率), Precision(精确率), 和F1-Measure

例子 某大学一个系,总共100人,其中男90人,女10人,现在根据每个人的特征,预测性别 Accuracy(准确率) Accuracy=预测正确的数量需要预测的总数 计算 由于我知道男生远多于女生,所以我完全无视特征,直接预测所有人都是男生  我预测所的人都是男生,而实际有90个男生,所以  预测正确的数量 = 90  需要预测的总数 = 100...
阅读(55) 评论(0)

Python:with语句和上下文管理器对象

今天看书,书上面提到要尽量使用with自动关闭资源,里面还提到了上下文管理器对象的概念,然后查找资料,对with的解释如下:with的有一些任务,可能事先需要设置,事后做清理工作。对于这种场景,Python的with语句提供了一种非常方便的处理方式。一个很好的例子是文件处理,需要获取一个文件句柄,从文件中读取数据,然后关闭文件句柄。下面就讲下with语句以及上下文管理器对象,希望对你有帮助。 ...
阅读(69) 评论(0)

风控分类模型种类(决策、排序)比较与模型评估体系(ROC/gini/KS/lift)

本笔记源于CDA-DSC课程,由常国珍老师主讲。该训练营第一期为风控主题,培训内容十分紧凑,非常好,推荐:CDA数据科学家训练营 —————————————————————————————————————————— 一、风控建模流程以及分类模型建设 1、建模流程 该图源自课程讲义。主要将...
阅读(59) 评论(0)

ROC曲线-阈值评价标准

ROC曲线指受试者工作特征曲线 / 接收器操作特性曲线(receiver operating characteristic curve), 是反映敏感性和特异性连续变量的综合指标,是用构图法揭示敏感性和特异性的相互关系,它通过将连续变量设定出多个不同的临界值,从而计算出一系列敏感性和特异性,再以敏感性为纵坐标、(1-特异性)为横坐标绘制成曲线,曲线下面积越大,诊断准确性越高。在ROC曲线上,最靠近...
阅读(41) 评论(0)

OLAP引擎——Kylin介绍

Kylin是ebay开发的一套OLAP系统,与Mondrian不同的是,它是一个MOLAP系统,主要用于支持大数据生态圈的数据分析业务,它主要是通过预计算的方式将用户设定的多维立方体缓存到HBase中(目前还仅支持hbase),这段时间对mondrian和kylin都进行了使用,发现这两个系统是时间和空间的一个权衡吧,mondrian是一个ROLAP系统,所有的查询可以通过实时的数据库查询完成,而...
阅读(57) 评论(0)

数据立方体----维度与OLAP

数据立方体   关于数据立方体(Data Cube),这里必须注意的是数据立方体只是多维模型的一个形象的说法。立方体其本身只有三维,但多维模型不仅限于三维模型,可以组合更多的维度,但一方面是出于更方便地解释和描述,同时也是给思维成像和想象的空间;另一方面是为了与传统关系型数据库的二维表区别开来,于是就有了数据立方体的叫法。所以本文中也是引用立方体,也就是把多维模型以三维的方式为代表进行展现和描述...
阅读(55) 评论(0)

#########WOE 评分模型 在logistics regression算法在评分卡上的实践

以德国信用数据为例,用logistict regression算法做信用评分卡原理性实现,因此并未考虑feature selection. 第一步:导入必要的库 1 2 3 import pandas as pd import numpy as np from sklearn.cross_validation import train_te...
阅读(73) 评论(0)

评分卡模型剖析之一(woe、IV、ROC、信息熵)

信用评分卡模型在国外是一种成熟的预测方法,尤其在信用风险评估以及金融风险控制领域更是得到了比较广泛的使用,其原理是将模型变量WOE编码方式离散化之后运用logistic回归模型进行的一种二分类变量的广义线性模型。       本文重点介绍模型变量WOE以及IV原理,为表述方便,本文将模型目标标量为1记为违约用户,对于目标变量为0记为正常用户;则WOE(weight ofEvidence)其实就是...
阅读(48) 评论(0)

数据挖掘模型中的IV和WOE详解

1.IV的用途 IV的全称是Information Value,中文意思是信息价值,或者信息量。 我们在用逻辑回归、决策树等模型方法构建分类模型时,经常需要对自变量进行筛选。比如我们有200个候选自变量,通常情况下,不会直接把200个变量直接放到模型中去进行拟合训练,而是会用一些方法,从这200个自变量中挑选一些出来,放进模型,形成入模变量列表。那么我们怎么去挑选入模变量呢? 挑选入...
阅读(60) 评论(0)

spark dataframe API 整理 (差集等)

1,从列表中创建dataframe    列表的每一个元素转换成Row对象,利用parallelize()函数将列表转换成RDD,toDF()函数将RDD转换成dataframe    from pyspark.sql import Row    l=[Row(name='jack',age=10),Row(name='lucy',age=12)]    df=sc.parallelize...
阅读(100) 评论(0)

梯度迭代树(GBDT)算法原理及Spark MLlib调用实例(Scala/Java/python)

梯度迭代树 算法简介:         梯度提升树是一种决策树的集成算法。它通过反复迭代训练决策树来最小化损失函数。决策树类似,梯度提升树具有可处理类别特征、易扩展到多分类问题、不需特征缩放等性质。Spark.ml通过使用现有decision tree工具来实现。        梯度提升树依次迭代训练一系列的决策树。在一次迭代中,算法使用现有的集成来对每个训练实例的类别进行预测,然后将预测结...
阅读(109) 评论(0)

Python-Pandas 如何shuffle(打乱)数据?

在Python里面,使用Pandas里面的DataFrame来存放数据的时候想要把数据集进行shuffle会许多的方法,本文介绍两种比较常用而且简单的方法。 应用情景: 我们有下面以个DataFrame 我们可以看到BuyInter的数值是按照0,-1,-1,2,2,2,3,3,3,3这样排列的,我们希望不保持这个次序,但是同时列属性又不能改变,即如下效果: ...
阅读(129) 评论(0)

Python日期的加减等操作

1. 日期输出格式化 所有日期、时间的api都在datetime模块内。 1. datetime => string now = datetime.datetime.now() now.strftime('%Y-%m-%d %H:%M:%S') #输出2012-03-05 16:26:23.870105 strftime是datetime类的实例方法。 2. string...
阅读(55) 评论(0)
750条 共50页1 2 3 4 5 ... 下一页 尾页
    个人资料
    • 访问:608384次
    • 积分:8697
    • 等级:
    • 排名:第2460名
    • 原创:182篇
    • 转载:561篇
    • 译文:7篇
    • 评论:49条
    最新评论