《SAS DM 数据准备》
文章平均质量分 62
RoQuant
一个量化投资爱好者
展开
-
SAS DM数据准备读书笔记3(宏的几个注意点)
SAS MACRO的几个注意点: (1)&,&&的阅读。掌握一个规律,从右往左读。比如:%let x1=roki;%let x2=man; 请问以下程序的输出结果:%do i=1 %to 2;%put &&x&i;%end; 以上程序时考察&&x&i的读法。首先,从左往右读,第一遍翻译 &i =1 ,两个&&=&,因此第一遍结果为&x1, 第二原创 2014-04-01 00:21:08 · 1320 阅读 · 0 评论 -
SAS DM数据准备读书笔记9(数据抽样与拆分)
分析大型数据集时,不能一下就把所有数据拿来分析,因此常常抽取一部分来测试。另外,在训练模型的时候,也常常将数据集分成3部分,训练集,校验集合测试集。因此,抽样的方法也是必须要掌握的基础技能。曾经帮深圳供电局设计过一个营业稽查抽样决策系统,里面用了很多很复杂的抽样方法,以保证各个区局所抽样本的得分能够近似整个区局的真实情况。很怀念那段一起战斗的岁月和弟兄们,虽然当时项目小组的人员已经都离开项目小原创 2014-04-05 22:30:17 · 2192 阅读 · 0 评论 -
SAS DM数据准备读书笔记7(数据集比较)
列联表:以列表方式表示两个(或多个)变量或属性共同出现的频率。 或者是将两个属性变量的不同取值置于行和列的位置,在表格中填入变量组合取值的频数的表格。原创 2014-04-05 20:18:54 · 1038 阅读 · 0 评论 -
SAS DM数据准备读书笔记8(探索性数据分析)
(1)探索性数据分析是统计分析和数据挖掘的原创 2014-04-05 21:56:52 · 2032 阅读 · 0 评论 -
SAS DM数据准备读书笔记6(类别比较)
可以通过Proc Freq来获得名义变量的类别及每个类别的频数,或者使用SQL的 select distinct+group by方式。有时,我们需要确保样本中的类别数能够保持和总体的的类别数是一致的,因此需要比较样本的类别数和总体的类别数是否一致。以下程序就用于实现比较两个数据集的两个名义变量的类别是否一致。 (未完待续)原创 2014-04-03 11:53:07 · 979 阅读 · 0 评论 -
SAS DM数据准备读书笔记5(计算众数Mode)
众数的计算在数据挖掘过程中是一个非常重要的步骤,比例在交易数据中需要统计每个用户最频繁的交易方式是什么。下面的程序主要使用了MACRO, SQL,其中SQL使用了多重嵌套查询的功能(变态的使用了四重)。如果数据集较大,需要对数据集创建索引,另外,也可将数据集分成子集计算以克服内存限制。 【宏参数定义】 主要需要以下几个宏参数,TransDS需要分析的交易数据集,XVar需要计算众数的变原创 2014-04-02 11:53:58 · 2825 阅读 · 0 评论 -
SAS DM数据准备读书笔记4(行列转换RollUp)
一般数据库的设计是从系统稳定和效率的角度来设计,而分析主要考虑到分析方法或者应用软件所容易接受的数据结构。因此,多多少少要进行些数据结构的调整。其中行列转换就是最常用使用的步骤。本例子中讨论如何将类别变量的值转变为变量,比如要将下图中左边表中的2003年6月的checking账户变为行变量。这样就会生成以下几个字段:Customer ID, C6,C7,C8,S6,S7,S8,C6代表6月原创 2014-04-01 11:55:55 · 2102 阅读 · 0 评论 -
SAS DM数据准备读书笔记2(宏调用宏)
4.6学会使用宏调用宏【目的】通过将相同功能的代码写到不同的子宏程序,再用一个主宏来调用子宏,保证程序的可阅读性【主要方法】主要使用了including 以及宏调用方法【代码解说】前面两句为引用两个子宏,将两个子宏的程序分别保存在Func1.sas和Func2.sas里面。 %include "C:\Macros\Func1.sas";%include "C:\Macros\原创 2014-04-01 00:01:15 · 1657 阅读 · 0 评论 -
SAS DM数据准备读书笔记1(分解字符串)
数据准备与分析的关系犹如大厨的刀工和厨艺的关系,任何一个大厨都有精湛的刀工。听说日本有个寿司店,在店里要做几十年的小工(练习刀工),才能让其动手做主菜。 前三章主要介绍一些基础概念的知识,代码介绍主要从第四章开始。 4.5分解字符串代码 【目的】将字符串里面的单词独立出来;【主要方法】主要使用了do while 和scan函数【代码解说】专业人员写代码会将很考虑很多原创 2014-03-31 23:48:51 · 1188 阅读 · 0 评论 -
SAS DM数据准备读书笔记(目录)
计划从今天开始整理SAS DM的读书笔记,计划一天2-3篇,争取3个月左右时间,在小学期前完成。今天倒腾了一段宏变量加总的代码,发现学海无涯。还是要通过整理读书笔记把数据分析处理的能力系统巩固下。 学习书籍:Data Preparation for DataMining Using SAS 网络上很容易下载到电子版,发现百度网盘和新浪爱问的电子资源很丰富,基本上常用的电子教材上面都可以原创 2014-03-31 23:20:00 · 1553 阅读 · 0 评论 -
SAS DM数据准备读书笔记10(数据转换)
数据转换是数据准备阶段最重要的一个环节,它主要有以下两个目标:(1原创 2014-04-06 17:30:00 · 1119 阅读 · 0 评论