自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(14)
  • 收藏
  • 关注

转载 熵(entropy)

熵(entropy):刻画了任意样例集的纯度(purity),反映不确定性,值越小不确定性越低。公式:p+代表正样例,如打羽毛球,p-则代表反样例,不去打球。E.g. 9个正例和5个反例的熵为:Entropy([9+,5-])=-(9/14)log2(9/14)-(5/14)log2(5/14)=0.940正例反例各占一半时,熵为最大值1,即不确定性最大 - 100%。

2015-07-30 22:10:24 2495

原创 R - SVM 支持向量机

install.packages("e1071")library(e1071) 1)svm建模(i) svm(formula,data=NULL,…,subset,na.action=na.omit,scale=TRUE)formula:分类模型形式,可以理解为y~x,y相当于标签,x相当于特征(变量)。subset:可以指定数据集的一部分作为训练数据。na.catio

2015-07-29 19:25:58 3728

转载 Scorecards - AUC与ROC与Gini

From http://beader.me/2013/12/15/auc-roc/二元分类器  二元分类器是指要输出(预测)的结果只有两种类别的模型。例如预测阳性/阴性,有病/没病,在银行信用评分模型中,也用来预测用户是否会违约,等等。  既然是一种预测模型,则实际情况一定是有些结果猜对了,有些结果猜错了。因为二元分类器的预测结果有两种类别(以下以阴/阳

2015-07-23 23:34:08 7627

原创 credit risk 预测建模 - try 2

一、数据预处理 1、数据清洗(data cleaning) (1)缺失值处理(missingdata processing)无缺失值。 (2)去噪声(noisy dataprocessing)(未有时间研究) (3)去异常值(outlierprocessing)? (4)共线性变量处理(pairwisecorrelations processin

2015-07-22 19:23:51 3005

原创 离散化/分箱/分组(Discretization / binning / Interactive grouping)

1、监督离散化(supervised discretization)考虑类别信息(已知X 的值和Y 的值)。检验方法如:卡方检验(ChiMerge 慢、Chi-square、Chi2、CAIM、CACC、ameva),信息增益,基尼指数,最短描述长度原则(MDLP,基于熵),WoE等。 (1)最优准则:基于“树结构准则”查找最佳分组 (条件推理树Conditional Inferenc

2015-07-22 19:15:42 28067 2

原创 目录条目”SASHELP.EMCREDIT.IGN.SOURCE”不存在

EM已经能启动,但运行到交互式分组时遇到下面的错。查了全internet,无解,无奈中~~~

2015-07-21 18:59:24 1279 6

原创 SAS9.3 EM 点击没反应不能打开的解决方法

SAS9.3 刚安装,SAS base等能正常使用了,但点击EM没反应、不能打开,也不报错。查看原因:到D:\Program Files\SASHome\SASEnterpriseMinerWorkstationConfiguration\12.1windows 里调用的是em.exe,我们运行另外一个程序,叫em_console.exe,方法是先在运行中键入cmd启动dos样

2015-07-21 14:56:24 7791 2

原创 SAS9.3完全版启动时报错逻辑库“SASHELP”及其解决方法

安装SAS9.3完全版(13GB鬼那么大的套装),在倒数第二步,PC File出错,经查可以直接点“是”继续安装而不用理会。但在最后一步,安装后处理,就一直转、一直转个不停,点完成,启动SAS时就报下面的错了:WARNING: 连接逻辑库“SASHELP”中指定的一个或多个逻辑库不存在。这些逻辑库已从连WARNING: 接中删除。ERROR: “SASHELP 可移植注册表”缺

2015-07-21 14:09:59 22125 1

原创 Scorecard 评分卡模型

公式woe=ln(odds),beita为回归系数,altha为截距,n为变量个数,offset为偏移量(视风险偏好而定),比例因子factor。 总评分。或去掉负号。 Logistic Regression with Weight of Evidence 比例因子和偏移量为:令好坏比为50,对应的评分为600;在些基础上评分值增加20分,e

2015-07-20 23:19:35 44714

原创 credit risk 预测建模 - try 1

一、数据预处理 导入数据 自变量-连续型V2,V5,V8,V11,V13,V16,V18自变量-分类型V1,V3,V4,V6,V7,V9,V10,V12,V14,V15,V17,V19,V20因变量yV21变量释义https://archive.ics.uci

2015-07-20 19:46:52 3029 2

原创 折腾R程序包-devtools

今天因为某些原因打算安装R程序包devtools,我用的是XP平台,R3.2.1。开始时,download了devtools的包压缩文件,然后在R程序menu: packages -> installpackages from local zip files中安装,然后发现其需要一大堆前置包才能运行,于是改用命令install.packages("devtools")。这里建议选镜像China.b

2015-07-19 19:54:13 14021

原创 R语言基础总结

符号= 或 赋值“超赋值”操作符,函数内部定义全局变量? / ?? / help()Help, e.g. help("scan")demo() example()e.g. example(glm)methods()

2015-07-13 16:35:44 3861

原创 diary - 20150703

昔回首,一切皆梦亦成恋,明抬头,云海尽空人已变

2015-07-03 22:40:30 582

原创 参数估计、假设检验与回归

总体架构拟合(fitting) 概念已知某函数的若干离散函数值{f1,f2,…,fn},通过调整该函数中若干待定系数f(λ1, λ2,…,λn),使得该函数与已知点集的差别(最小二乘意义)最小。如果待定函数是线性,就叫线性拟合或者线性回归,否则叫作非线性拟合或非线性回归。 参数估计概念在已知

2015-07-03 19:52:32 21714

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除