- 博客(20)
- 收藏
- 关注
转载 R apply、tapply、lapply、sapply、mapply 说明
apply函数(对一个数组按行或者按列进行计算): 使用格式为:apply(X, MARGIN, FUN, ...)其中X为一个数组;MARGIN为一个向量(表示要将函数FUN应用到X的行还是列),若为1表示取行,为2表示取列,为c(1,2)表示行、列都计算。示例代码:> ma > ma [,1] [,2] [,3] [,4][1,] 1 3
2014-04-18 11:25:04 1220
转载 R 日期
#日期型数据在R中自带的日期形式为:as.Date();以数值形式存储;对于规则的格式,则不需要用format指定格式;如果输入的格式不规则,可以通过format指定的格式读入;标准格式:年-月-日或者年/月/日;如果不是以上二种格式,则会提供错误;as.Date('23-2013-1')错误于charTo按照Date(x) : 字符串的格式不够标准明确> as.Dat
2014-04-11 11:55:00 717
转载 Oracle R Enterprise中大型数据集的回归
我用Oracle R Enterprise改写一下 .也来解决 R客户端内存不足的问题(只是无法用到并行这个特性)#生成数据set.seed(123);n = 5000000;p = 5;system.time(x matrix(rnorm(n * p), n, p));x = cbind(1, x);bet = c(2, rep(1, p));y = c(x %*
2014-04-11 10:42:44 1750
转载 R Hadoop 与大数据
R的应用场景不在于无与伦比的统计学习能力,而在于结构化数据下无与伦比的单位代码产出量。神经网络,决策树等基于结构化数据的算法一行代码搞定,预测又只是一行代码。这样,商业数据库(如包括Oracle,Netezza,Teradata,SAP HANA等)提供了R接口供统计分析人员进行高效实施。 同样的,SAS和IBM SPSS也做到了一部分高效实施能力,他们没有的是R独有的庞大cran package
2014-04-11 00:09:26 1220
转载 R. 数据框(data.frame)解释
数据框(data.frame)数据框是S中类似SAS数据集的一种数据结构。它通常是矩阵形式的数据,但矩阵各列 可以是不同类型的。数据框每列是一个变量,每行是一个观测。但是,数据框有更一般的定义。它是一种特殊的列表对象,有一个值为“data.frame”的class 属性,各列表成员必须是向量(数值型、字符型、逻辑型)、因子、数值型矩阵、列表,或 其它数据框。向量、因子成员为数据框提供一个变
2014-04-09 14:44:39 4022
转载 R语言基础教程1:数据类型
R语言基础教程1:数据类型 R语言基础教程1:数据类型R语言基础教程2:散点图R语言基础教程3:曲线图、误差线和图例R语言基础教程4:柱形图R语言基础教程5:图形页面排版R语言基础教程6:程序设计基础R语言基础教程7:数据描述性统计了解数据的分类和数据结构对于生物专业的学生来说是很枯燥的。但数据又是最基本的东西,没有数据,只能玩干瞪眼。怕枯燥的,这
2014-04-09 10:13:46 2790
转载 For Today’s Graduate, Just One Word: Statistics.(NY Times)
Carrie Grimes 在哈佛主修人类学和考古学,曾在宏都拉斯的雨林中经历过一场冒险,她透过标记古文物的出土位置来研究马雅人的居住地。「在大众眼中的考古学大多来自电影中印第安纳琼斯冒险犯难的场景,可是实际上的考古学大多都在做资料分析。」她这么描述着,而她也沉浸在她所谓的全是计算机与数学的领域中。如今Grimes女士从事另外一种挖掘的工作。她现在是Google的统计分析师,成天面对成堆的资料,并
2014-04-08 10:46:03 1898
原创 SAS DM数据准备读书笔记9(数据抽样与拆分)
分析大型数据集时,不能一下就把所有数据拿来分析,因此常常抽取一部分来测试。另外,在训练模型的时候,也常常将数据集分成3部分,训练集,校验集合测试集。因此,抽样的方法也是必须要掌握的基础技能。曾经帮深圳供电局设计过一个营业稽查抽样决策系统,里面用了很多很复杂的抽样方法,以保证各个区局所抽样本的得分能够近似整个区局的真实情况。很怀念那段一起战斗的岁月和弟兄们,虽然当时项目小组的人员已经都离开项目小
2014-04-05 22:30:17 2197
原创 每首歌都有一段历史
喜欢两个男人的歌,罗大佑和李 梦城市晚风 吹荡我的心情 夕阳和那倦鸟已远 告别隐退等着你来临夜上浓妆 生命里的夜晚 象那生命终该拥有 终于出现你的来临哦——女人 从我的初次的见你的面 从我的心与我的双手 怎样拥抱你的存在 My Love 哦——夜已沉静 灯光下的身影 笑看你我无声的迟疑哦——女人 是我心灵底最深的梦 使我的心 使我的双手
2014-04-05 21:08:40 871
原创 SAS DM数据准备读书笔记7(数据集比较)
列联表:以列表方式表示两个(或多个)变量或属性共同出现的频率。 或者是将两个属性变量的不同取值置于行和列的位置,在表格中填入变量组合取值的频数的表格。
2014-04-05 20:18:54 1039
原创 SAS DM数据准备读书笔记6(类别比较)
可以通过Proc Freq来获得名义变量的类别及每个类别的频数,或者使用SQL的 select distinct+group by方式。有时,我们需要确保样本中的类别数能够保持和总体的的类别数是一致的,因此需要比较样本的类别数和总体的类别数是否一致。以下程序就用于实现比较两个数据集的两个名义变量的类别是否一致。 (未完待续)
2014-04-03 11:53:07 979
原创 SAS DM数据准备读书笔记5(计算众数Mode)
众数的计算在数据挖掘过程中是一个非常重要的步骤,比例在交易数据中需要统计每个用户最频繁的交易方式是什么。下面的程序主要使用了MACRO, SQL,其中SQL使用了多重嵌套查询的功能(变态的使用了四重)。如果数据集较大,需要对数据集创建索引,另外,也可将数据集分成子集计算以克服内存限制。 【宏参数定义】 主要需要以下几个宏参数,TransDS需要分析的交易数据集,XVar需要计算众数的变
2014-04-02 11:53:58 2827
原创 SAS DM数据准备读书笔记4(行列转换RollUp)
一般数据库的设计是从系统稳定和效率的角度来设计,而分析主要考虑到分析方法或者应用软件所容易接受的数据结构。因此,多多少少要进行些数据结构的调整。其中行列转换就是最常用使用的步骤。本例子中讨论如何将类别变量的值转变为变量,比如要将下图中左边表中的2003年6月的checking账户变为行变量。这样就会生成以下几个字段:Customer ID, C6,C7,C8,S6,S7,S8,C6代表6月
2014-04-01 11:55:55 2103
原创 SAS DM数据准备读书笔记3(宏的几个注意点)
SAS MACRO的几个注意点: (1)&,&&的阅读。掌握一个规律,从右往左读。比如:%let x1=roki;%let x2=man; 请问以下程序的输出结果:%do i=1 %to 2;%put &&x&i;%end; 以上程序时考察&&x&i的读法。首先,从左往右读,第一遍翻译 &i =1 ,两个&&=&,因此第一遍结果为&x1, 第二
2014-04-01 00:21:08 1320
原创 SAS DM数据准备读书笔记2(宏调用宏)
4.6学会使用宏调用宏【目的】通过将相同功能的代码写到不同的子宏程序,再用一个主宏来调用子宏,保证程序的可阅读性【主要方法】主要使用了including 以及宏调用方法【代码解说】前面两句为引用两个子宏,将两个子宏的程序分别保存在Func1.sas和Func2.sas里面。 %include "C:\Macros\Func1.sas";%include "C:\Macros\
2014-04-01 00:01:15 1657
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人