- 博客(41)
- 收藏
- 关注
原创 GLT C1
Graphs template language:GLT,CAN DEFINE THE STRUCTURE OF THE GRAPH. WHAT KIND OF GRAPH OD YOU WANT:TWO STEP:ONE.USING proc template define the structure of graph: when the template is successfully c...
2020-04-13 18:06:30 334
原创 关于sas output 一页该有多少行?
有时候,为了output好看,和人出门打扮一样,要得体精致,最重要还是要整齐。output的格式也是,你一页放几条records,record是否是同属一个小类下的细分类,如果是那所有小类下的细分类应该在一页(一般情况可以)这样看才得体。下面是一套普遍适用的code,简单的可以直接group=ceil(_n_/n), n是一页放的条数。对于数据不是很有规律的,可以参考下面的code,来自一位有人的...
2019-12-03 11:20:55 695
原创 retain的用法 SAS
问题描述:多个人在15NOV2019这天多次使用同一校园卡进入图书馆每次都借了数目不一样的书,要列出这张卡的首次借书数目。如下数据:cardid是校园卡号 name是不同的人,time是借书时间,nobook是number of book。现在只想list每张卡的第一次借书数,即从????到????的变化。这时可以使用retain。...
2019-11-15 14:17:59 8626 1
原创 文一
我学的都是皮毛,1/4桶水都没有。日复一日,我可能没那么快明确知道自己想要成为哪一种人,或者这辈子会选择哪一种职业。但我可以明确知道自己不可以成为哪一种人,同时绝不允许自己在言行举止上表现出哪种动作。我相信这也算是进步。概率里边失败的对立事件一定是成功,放在这里,显而不现实,但至少我们能在更有利的样本空间里边找到目标样本点。不能找得到目标相比找错目标要幸运得多(人生或者职业)。如果你对错误的目标进...
2019-11-13 17:38:33 248
原创 巧用merge
问题:编号为1,2,3,4的试验中心,每个中心有编号为1,2,3,4,5,6的试验动物,想要记录对不同中心的不同编号的动物的试验次数进行统计总结如下表中心编号 试验编号 计数 1 1 1 2 1 3 1 4 1 5 1 6 但你的原始数据为一条观测代表一...
2019-05-07 13:01:09 267
原创 Proc freq
用于计数单个类别或者多个类别的。统计中的n*n列联表。HELP 文档:produces one-way to n-way frequency tables and reports frequency counts. PROC.FREQ can compute chi-square tests for one-way to n-way tables; for tests and measures o...
2019-05-06 23:30:35 2477
原创 搬运工 set
set:Reads an observation from one or more SAS data sets。从一个存在在sas逻辑库中的数据集读取数据。*单个数据集;*--------创建一个数据集a,数据来源于sashelp数据库中的class数据集;data a;*新的数据集a,数据来源于存在sas逻辑库sashelp中的class数据集。set sashelp.class;...
2019-04-20 22:06:31 306
原创 安检
对于一个工厂企业,我们知道在把“原材料”运送到厂里时需要进行安检。每一条数据就类似一个行李,你得符合厂里的标准才能给你过安检进入厂。还有就是你不同的行李应该按照不同的安检标准进行安检。同时,安检站会记录今天有多少件行李,都是什么类型的,然后分配到不同的厂库。SAS是对数据的加工厂,有着自己的管理规则以及标准运行流程。在读入数据的时候,就类似上述工厂原材料。经过安检这个缓冲区(buffer),没...
2019-04-20 13:37:33 409
原创 SAS MACRO Debugging option
入职时间长了,自己写code的能力还是弱弱弱。除了在网上到处借(抄)鉴(抄)。有以下两个感想:一.如果代码不具有很好地共享性,那就是辣鸡。。。。。二.如果你觉得代码没有很好的共享性,那么就是自己菜。。。。最近的任务很多度需要对某一个东西按不同分组进行相同操作,为了美观可读性等等(因为懒)。所以宏就是宝贝了。而关于宏,sas log并不会像data step 过程给你提供编译的细节,...
2019-04-05 17:18:43 1282
原创 sas 之proc sql
轮到写子查询,想了想,好像有点东西,就先放一下。讲一下多表的操作,因为之前的code都是对于单个数据集来说,而多个数据集,两个就经典来,你唔可以话无三不算多,不好意思,我说二是多,就是多。哈哈,有点东西(所以呀,写笔记也挺快乐的)主要就是合并啦,merge与set,sql过程与data step的差别,唔好问,你自己学会两者自然就知道有咩差别,就算我话比你知区别,系冒用滴。主讲merge对...
2019-01-24 16:02:26 1779
原创 sas之proc sql(三)
在介绍聚合函数之前,说一下sql里边起别名的方法,就好比如,你细个个阵,人地觉得你叫啊明唔系好威,甘你就改名为牛批帝,省港澳最威啦。那么在sas proc sql过程怎么为变量以及数据集改名呢,用as 或者 空格,如下,age改为age1,sex 改为gender。对于数据集也是同样的操作。proc sql;select age as age1,sex "gender"from sas...
2019-01-24 15:29:38 2072
原创 sas之proc sql(二)
理解表以及学会创建表之后,接下来要对单个表进行管理:主要使用:1.select2.from3.where4.group by5.order by6.having其中select 以及from是必须的。个人理解就是:通过select语句选择变量 变量来自from指定的dataset,order by指定选出来的变量按照谁来排序,group by 按照谁来分组,having...
2019-01-24 15:10:57 1752 1
原创 sas之proc sql (一)
本人本文不讨论data step 与 proc sql谁优谁劣。只要你学会用,用得好,就是大哥,同时谁优谁劣心中有数。本系列主要介绍sas 的proc sql过程。按照对象分为三部分:表,表的操作 即row column,其他。个人学习的思路借鉴sas data步的学习经验,对表的管理以及操作。第一部分:table表。表是由行和列组成的,sas的行是代表观测,列代表变量。以下为创建...
2019-01-24 13:49:51 4265
原创 因子处理
主要应用:对于水平值的修改,整理library(forcats)library(tibble)library(dplyr)library(magrittr)library(ggplot2)x1 <- c("Jan","Apr","Mar","Dec")x2 <- c("Dec","Apr","Jam","
2018-09-14 23:23:01 404
原创 数据分析案例
数据分析报告撰写 ———手机APP数据背景介绍2015年1月5日,人民银行批准八家机构进行数据的收集。此后,中国个人征信行业进入高速发展期,征信人口覆盖率达50%,每人每年查询个人征信报告的次数为5,查询服务单价为25元,从而,征信市场未来规模约855亿元。什么是征信?简单而言,市民小强买新出的BMW,问题钱不够,便找银行贷款。银...
2018-09-12 22:22:18 9288 1
原创 数据思维笔记
数据思维笔记数据介绍:通过数据说明表进行表述,表格格式如下:表1-1 变量类型 变量名 详细说明 取值范围 备注 因变量 综合成绩 自变量 ...
2018-09-07 09:50:39 743
原创 数据集合并
连接的含义:表与表之间的关系,吃个栗子:学生信息表A包含:性别、年龄、身份证号码,学生兴趣爱好表B包含:身份证号码、兴趣爱好。如果你想了解不同兴趣爱好的学生的姓名以及性别情况,单纯靠一张兴趣爱好表是没有办法回答的,得结合学生信息表,就要找他们之间的关系。可以通过身份证号码将两个表连接起来。身份证号码就是A的主键,也是B的外键,因为它能唯一识别一个学生。连接类型内连接 外连接左连接...
2018-09-04 22:13:35 814
原创 机器学习的概念
学数据分析的,机器学习常挂在嘴边。机器学习是什么?模型?不是,不是。看完李航大师的统计学习方法,机器学习可能就是:模型、决策、算法。举例子:模型:线性回归决策:怎么选择最优的模型,即评估模型的好坏,这时候要用到损失函数,即真实值与训练结果的误差尽可能小。平方损失函数算法:就是,求解未知数的方法。求偏导。认真想一下,任何的模型,度离不开上述所讲。 ...
2018-08-22 10:13:35 276
原创 Rstudio 工作流:项目
做项目对于代码,输出的保存非常重要,有利于你回头看,会发现什么问题,或者你忘了怎么得到结果,这些都可以通过建立项目。而具体是什么呢,有什么用呢。直接看看例子:Rstudio项目1.点击file-new project2.点击New Directory3.选择New project4.输入项目名字:data annalysis文件保存路径:D盘数据分析点击c...
2018-08-19 13:37:56 2299
原创 w3c sql细节
order by 进行排序的时候,当按照多个变量排,当第一个列中有相同值,后面列要按照升序排列-------------------UNION 操作符用于合并两个或多个 SELECT 语句的结果集UNION 结果集中的列名总是等于 UNION 中第一个 SELECT 语句中的列名--------------------------------------------------...
2018-08-10 17:05:02 248
转载 嵌套型list转换为data.frame的方法
这一个方法是可以的:https://blog.csdn.net/h8178/article/details/78626246杜雨的方法,后面补上
2018-08-09 14:24:43 2936
原创 稀疏变量的处理
经常,对于高维的数据集,降维的第一步,就是删除那些包含相同信息的变量,就是变量取值很多相同的或者改变了的方差很小。想删除第一步,就是,先问为什么?当然是模型不接受你这种的变量,好比如回归分析,把很多值相同的变量作为自变量,对于模型的拟合效果有影响。那么,要删,当然先找到哪些属于稀疏变量。nearZeroVar为caret包中函数的两个参数就是理论。1.uniqueCut:是不同...
2018-08-08 14:35:14 2108 1
原创 R设置哑变量
对于分类数据,即定性数据在建模的时候常常需要转换为哑变量,R提供了非常好用的函数;dummyvars();matxir.model();
2018-08-08 08:49:51 3822
原创 ojbk的sas proc 过程之proc format
sas数据输出输入格式很多,但有时候变量的输入输出格式想根据自己的要求来,这时候用proc format就好了;例子:创建数据集名称为a:data a;input id$ sex height weight band$;cards;cnw1r01 2 154 49 Ccnw1r02 1 169 64 Bcnw1r04 1 169 67 A;run;通过proc for...
2018-08-06 14:21:18 3260
原创 R语言的缺失值处理(2)
用预测来填补。DMwR包 knnlmputation(),利用knn进行填补,数据集要求剔除因变量,即响应变量。但是 knnlmputation(),对于因子变量的取值,其效果不是很好。这是可以考虑用回归树repart函数里边的参数说明,当取值为数值型method用anova,当为因子型用class。----------------------------------填补缺失值...
2018-08-06 11:48:25 1051
原创 R语言的缺失值处理(1)
一定要先了解缺失机制,即为什么会产生缺失值。对于随机产生的缺失值,可以删除,删除的对象分为两类,变量的删除,以及观测值的删除。当某一变量的缺失值比例很高的时候,可以直接删除,也可以用哑变量进行标志。但缺失值的产生不是随机的,要根据它产生原因用不同的方法填补;主要介绍三个包的常用于填补缺失值的函数。思路一般是要定位缺失值以及查看缺失值的数量:is.na()sum(is.na(...
2018-08-06 11:43:31 6346
原创 ojbk的sas proc 过程之freq
没错,做列联表分析的好帮手:先给列联表定义:列联表(contingency table)是观测数据按两个或更多属性(定性变量)分类时所列出的频数表。它是由两个以上的变量进行交叉分类的频数分布表。长什么样呢?以两个变量(定性变量)为例: 学历 本科 硕士 性别 男 a c 女 b d 列联表分析( contingency cab...
2018-08-06 10:01:04 3116
原创 SAS 选择select;when;otherwise;end;
SAS可以通过select语句完成多个选择条件的判断。基本格式:select;when(表达式) sas 语句;.....end;如下:如果数据集cm中的变量cmenrtpt取ONGOING,则cmenrtpt赋值为Yes;如果不满足则进行下一句,再不满足就otherwise;data aset sdtm.cm;select; when(cmenrtpt='ONG...
2018-08-03 14:56:27 6078
原创 ojbk的sas proc 过程之transpose
实习生,实习生,实习生,我是一名实习生,公司要用到sas,所以,想写点东西记录一下这个过程。最近经常用到数据的转置问题,在R里边一个T(data)就可以了,单纯转置python中有zip,但是我还没有尝试用R,按特定变量分组,然后再对其他特定变量转置,这里可以操作一下,有时间的话。不过,sas的proc transpose,就能很完美而且轻易做到。这里要知道,sas的转置和几何代数或者线代...
2018-07-31 11:01:20 5132
原创 ojbk的sas 循环语句
相信大家都见过,也了解过循环语句,所以,我们要学习的是sas特定的语法及表达式。而循环过程理解都是一个样。1.Do-End;2.Do until(表达式); sas语句1; .....; end;3.Do while(表达式); 语句1; 语句2; ..... end;先说第一个do-end;常见格式:do i= 1 to ...
2018-07-31 10:29:41 2287
原创 产生服从特定分布的随机数
很多时候,对于现实生活中的问题,不能具体化,找不到实际问题的具体变量。此时,可以考虑蒙特卡罗模拟,此主要的思想就是产生符合某一问题的大量随机数,进而对随机数进行研究分析。#所有服从个特定分布的随机数皆在U(0,1)均匀随机数的基础变换而得来。n <- 1000m <- runif(n,0,1)#逆变换法 eg:求服从指数分布的随机数,参数λ为1.其分布函数为y = 1- e^-x,其反...
2018-07-03 00:54:57 6865
原创 R语言排序算法代码
##bubblerm(list = ls())#vec<-c(2,5,3,9,6,1,7) vec<-c(6,2,4,1,5,9)bubblesort = function(vec){ n = length(vec) for(i in 1:(n-1)) { for(j in (i+1):n){ if(vec[i]>=vec[j]){ temp&l...
2018-06-05 22:31:34 2536
原创 数据的预处理之量纲消除
如果对于不明白原理的同学,可以查看memory的博客memory的博客http://blog.sina.com.cn/u/1974002713#数据的预处理之量纲消除rm(list = ls())#第一min-max标准化data<-matrix(c(4,7,6,8,9,9,4,3,5),nrow = 3)stddata <- data.frame()for(i in 1:dim(da...
2018-06-05 22:29:33 8923
原创 R语言输入输出
R语言输入输出 主要的内容就是输出的语句以及读取文件的具体操作文本 我们常见的对象有三种:数值型,逻辑型,字符型数值型:1,134逻辑型:f t一般在运算符中 t为1 f为0字符型:charach,dfnjson等一般引用的时候要用双引号。现在介绍一下对于一般类型之间的转化。例如:一个数️字符串:as.numeric字符串️数:as.character更多的有对于数据类型之间的转化例如vector...
2018-06-05 22:22:50 2576
原创 一元线性回归
#rm(list = ls())利用R内置数据集women,简单阐述一元回归分析的基本思路#数据womenhead(women) height weight1 58 1152 59 1173 60 1204 61 1235 62 1266 63 129#散点图plot(women$height,women$wei...
2018-05-27 23:31:35 1161
原创 主成分分析应用之主成分回归
主成分回归分析 对于OXY数据集的变量解释如下: 对上述数据进行回归模型的拟合,得到模型:从模型的显著性检验结果看出:除了常数项以及β3显著,其他变量系数都不通过显著性检验。同时,从模型整体拟合效果来看,R^2为0.8618,调整的R^2为0.7697,整体拟合效果可以通过。最后,p值为0.00198说明,拒绝原假设,即有理由认为回归模型从整体上拟合效果比较好。下面针对系数通不过检验进行分析。 #...
2018-05-27 23:16:42 38242 12
原创 主成分分析应用之聚类
数据的读取,通过嵌套的for循环把R矩阵填满,即得到一个对称矩阵。 princomp函数covmat参数的含义,通过R语言的帮助文档可知。 当输入矩阵为协方差矩阵,可以通过此参数的输入,从而使princomp函数能求出其主成分。 Loadings(pr),为主成分分析输出结果中的负荷因子矩阵 从summmary(pr),结果可知,当主成分个数m=3时,累计贡献率为70.52%,大于70%。即...
2018-05-27 22:57:53 14161 5
原创 主成分分析利器之princomp函数
通过princomp函数求主成分 由上述输出结果,可得:m=3时,累计贡献率为86.66%大于80%,即可认为m取3是合理的。Loadings结果可得,前三个主成分为:Z.1=0.48x1+0.475x2+0.429x3-0.207x4-0.385x5-0.348x6+0.211x7Z.2=-0.29x1-0.274x2-0.372x3-0454x4-0.336x5-0.407x6+0.379x...
2018-05-27 22:51:15 5225
原创 主成分分析基于R
一、实验目的:熟悉主成分析的思想,掌握求主成分的方法以及R语言代码 二、实验内容:对于从不同的数据出发,掌握三种求主成分的方法,以及相应的R语言代码。同时要求对命令输出结果进行理解,解释。 三、实验设备与平台:R语言 四、涉及的知识点:数据标准化,矩阵的特征值,特征向量,协方差矩阵,变量的相关系数矩阵,主成分分析思想,求解主成分的方法。 五、实验过程:从协方差矩阵出发,求主成分。 Comp.s...
2018-05-27 22:49:20 1430
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人