r
changzoe
这个作者很懒,什么都没留下…
展开
-
R解析文件--找出常用地址
解析文件–找出常用地址文件数据为三列,电话,地址,访问时间 要求输出每个电话的常用地址原创 2017-12-13 17:54:58 · 571 阅读 · 0 评论 -
统计描述分析
sasproc meansproc means data=数据集;class <分组变量,按变量名列分组统计,不要求排序>;var 要分析的变量名;by 分组变量,按变量名列分组统计,必须排序;freq 分析变量的品书;weight 权重;id 输出时加上的索引;output out 数据集名 关键字=新变量名;proc univariate...原创 2018-06-28 15:32:46 · 898 阅读 · 0 评论 -
分位数-hive,sas,r,python求法
为了方便,总结如下:hivepercentile函数和percentile_approx函数,其使用方式为percentile(col, p)、percentile_approx(col, p),p∈(0,1)其中percentile要求输入的字段必须是int类型的,而percentile_approx则是数值类似型的都可以 其实percentile_approx还有一个参数B...原创 2018-06-27 15:01:18 · 2345 阅读 · 0 评论 -
评分卡模型——变量分箱
处理缺失:由于缺失的值都是好人,根据业务含义,服以9999m44<-train$BILL6#######处理缺失train$BILL6[is.na(m44)]=9999m44<-train$BILL6原创 2018-05-15 17:42:34 · 2970 阅读 · 0 评论 -
r do call
函数 call 允许通过函数名字和参数列表创建一个调用对象 x <- 10.5 > call(“round”, x) round(10.5)如上所见, 是x的值而不是符号 加入了调用中,因此和 round(x)有明显的差异。这种形式用的非常地少,但是当一个函数的名字可以作为一个字符变量时,这会非常有用。 函数 do.call 是相关的,但会立即对...原创 2018-04-26 11:54:52 · 728 阅读 · 1 评论 -
rpart 决策树
节点和结点的区别:节点为两线相交,不为终点;而结点为两线相交为终点,没有延伸; 1.分支节点:它指向其他的节点,所以是度不为0的节点。 vs 叶子结点:度为0的结点 2.度:结点拥有的子树数;就是说这个结点下面有几条分支 3.树的深度:树有几层 4.10折交叉验证:常用的测试算法准确性的方法。 将数据集分成10份,轮流将其中9份作为训练数据,1份作为测试数据,进行试验 每次试验...原创 2018-04-25 10:46:49 · 2476 阅读 · 0 评论 -
R smbinning包详解
做评分卡用到 整理一下smbinningOptimal Binning for Scoring Modeling 最佳分箱将数字特征归类为分数模式中的其他用途。 这个过程,也称为监督离散化,利用递归分区来将数字特征分类。 特定的算法是条件推测决策树(Conditional Inference Trees),它最初排除缺失值(NA)以计算切点,并在计算信息值的过程中稍后添加它们...原创 2018-04-04 16:16:23 · 7794 阅读 · 0 评论 -
R做评分卡模型-实战
样本表现定义 变量含义 EDA与数据描述读入数据x<-read.csv('/Users/cc/Downloads/评分卡模型——具体举例/data1.csv',header=T,sep=',',fileEncoding = 'GBK')n <- length(x$order_id)data <- subset (x,x$BILL_CNT_L...原创 2018-04-09 10:31:33 · 977 阅读 · 0 评论 -
python与R画柱形图
python利用matplotlib.pyplot画柱形图:R画柱形图原创 2017-12-19 16:14:46 · 1016 阅读 · 0 评论 -
散点图的python和R展现以及热力图与向日葵散点图
散点图的python和R展现以及热力图与向日葵散点图原创 2017-12-19 14:58:54 · 6701 阅读 · 0 评论 -
【数据准备】_变量分析和随机抽样_python &R
1.单变量分析计算gini值,或者iv或者ks见另一篇文章2.多变量分析计算皮尔逊相关系数pythonimport matplotlib.pyplot as pltimport seaborn as snsdata3_corr=data3.corr()data3_corr.to_csv('trade_5_csv.csv')sns.heatmap(data3_corr)p...原创 2019-01-15 19:54:52 · 499 阅读 · 0 评论