R
文章平均质量分 78
RoQuant
一个量化投资爱好者
展开
-
R书精选16本(@xccds)
【推荐原因】我深有同感博主说言,现在人的烦恼是书太多,时间太少。古人云,俸出书来,落落大满,素蟫灰丝时蒙卷轴。现在是鼠标一点,几个T的资料就落落大满了。因此,选择性的阅读还是很重要的。原文地址:http://xccds1977.blogspot.com/2013/02/r.html以前人的烦恼是没有书可读,现在人的烦恼是书太多了。关于R语言的书已经出版很多了,博主大约读过其转载 2014-03-17 21:46:35 · 1887 阅读 · 0 评论 -
常见概率分布及在R中的应用
常见概率分布 离散型1.二项分布Binomial distribution:binom二项分布指的是N重伯努利实验,记为X ~ b(n,p),E(x)=np,Var(x)=np(1-p)pbinom(q,size,prob), q是特定取值,比如pbinom(8,20,0.2)指第8次伯努利实验的累计概率。size指总的实验次数,prob指每次实验成功发生的概率dbinom转载 2014-03-18 23:48:21 · 2096 阅读 · 0 评论 -
概率分布函数的四种形式(R)
【转载原因】内容有助于理解R的概率分布的几种函数语法,特汇总如下:1、概率密度函数定义:对任一个随机变量X,存在一个函数f(x),满足以上条件,那么就说,f(x)是X的概率密度函数: 意义说明:描述随机变量在某一个确定取值点的可能性的函数,或者说是瞬时增幅的一个函数: 2、累积分布函数定义:对任一随机变量X,对于任意给定值a,所有小于值a出现的概率和转载 2014-03-19 15:25:18 · 9383 阅读 · 0 评论 -
统计分布学习笔记(未完)
前一篇文章列出了SAS概率统计相关的主要函数,本部分主要介绍如果通过SAS函数来学习统计分布。原创 2014-03-18 00:21:39 · 1087 阅读 · 0 评论 -
How do I create a time-series object with dates?
> stockprices <- data.frame(prices=c(1.1,2.2,3.3), timestamps=c('2011-01-05 11:00','2011-01-05 12:00','2011-01-05 13:00'))> stockprices prices timestamps1 1.1 2011-01-05 11转载 2014-05-06 09:39:32 · 1136 阅读 · 0 评论 -
R apply、tapply、lapply、sapply、mapply 说明
apply函数(对一个数组按行或者按列进行计算): 使用格式为:apply(X, MARGIN, FUN, ...)其中X为一个数组;MARGIN为一个向量(表示要将函数FUN应用到X的行还是列),若为1表示取行,为2表示取列,为c(1,2)表示行、列都计算。示例代码:> ma > ma [,1] [,2] [,3] [,4][1,] 1 3转载 2014-04-18 11:25:04 · 1239 阅读 · 0 评论 -
如何使用reshape包进行数据汇总
在数据分析过程中,利用各种图表进行数据探索是必要的前期工作。描述性统计中就包括了直方图、散点图等工具来探索连续数据,对于分类数据,则可以采用条形图、交叉分组表等工具。Excel中所谓的“数据透视表”,其实就是一个交互式的交叉分组表。在R语言中可以很容易的用table()等函数得到相应的结果。对于一些更为复杂的任务,就需要其它的函数或包来完成。本例先以iris数据集为研究对象示范一些基本函数的用法,转载 2014-05-07 16:39:37 · 2078 阅读 · 0 评论 -
用plyr包扩展apply族函数的功能
apply族函数是R语言中很有特色的一类函数,包括了apply、sapply、lapply、tapply、aggregate等等。这一类函数本质上是将数据进行分割、计算和整合。它们在数据分析的各个阶段都有很好的用处。例如在数据准备阶段,我们可以按某个标准将数据分组,然后获得各组的统计描述。或是在建模阶段,为不同组的数据建立模型并比较建模结果。apply族函数与Google提出的mapreduce策转载 2014-05-07 16:47:04 · 1171 阅读 · 0 评论 -
探索R包reshape2:揉数据的最佳伴侣
前几天放出来的那个R的展示中,有说到其实学R的过程更多的就是熟悉各种函数的过程(学习统计模型不在此列...我个人还是倾向于不要借助软件来学习理论知识,虽然可以直接看codes...笔和纸上的推导还是不可或缺的基本功),然后各种基础函数熟悉了之后很多被打包好的函数就是缩短代码长度的利器了。excel里面有神奇的“数据透视表(pivot table)”,其实很多时候真的已经很神奇了....不过我还转载 2014-05-07 16:54:07 · 1419 阅读 · 0 评论 -
R语言基础教程1:数据类型
R语言基础教程1:数据类型 R语言基础教程1:数据类型R语言基础教程2:散点图R语言基础教程3:曲线图、误差线和图例R语言基础教程4:柱形图R语言基础教程5:图形页面排版R语言基础教程6:程序设计基础R语言基础教程7:数据描述性统计了解数据的分类和数据结构对于生物专业的学生来说是很枯燥的。但数据又是最基本的东西,没有数据,只能玩干瞪眼。怕枯燥的,这转载 2014-04-09 10:13:46 · 2807 阅读 · 0 评论 -
R Task Views
每一个学习R的人应该上Task Views原创 2014-05-08 23:58:57 · 1059 阅读 · 0 评论 -
R. 数据框(data.frame)解释
数据框(data.frame)数据框是S中类似SAS数据集的一种数据结构。它通常是矩阵形式的数据,但矩阵各列 可以是不同类型的。数据框每列是一个变量,每行是一个观测。但是,数据框有更一般的定义。它是一种特殊的列表对象,有一个值为“data.frame”的class 属性,各列表成员必须是向量(数值型、字符型、逻辑型)、因子、数值型矩阵、列表,或 其它数据框。向量、因子成员为数据框提供一个变转载 2014-04-09 14:44:39 · 4060 阅读 · 0 评论 -
2014最值得学习的语言—必须是R
NODE,LUA,Python,Ruby,R ,哪个在2014年的应用前景会更好?小编为此特别约稿了粉丝日志创始人张丹。张丹毫不犹豫的选择R。这也是意料之中的事。R不仅是2014年,也是以后更长一段时间的主角。 前言以下5种语言 NODE、LUA、Python、Ruby、R ,哪个在2014年的应用前景会更好?我毫不犹豫的选择R。R不仅是201转载 2014-05-09 16:46:03 · 1032 阅读 · 2 评论 -
Oracle R Enterprise中大型数据集的回归
我用Oracle R Enterprise改写一下 .也来解决 R客户端内存不足的问题(只是无法用到并行这个特性)#生成数据set.seed(123);n = 5000000;p = 5;system.time(x matrix(rnorm(n * p), n, p));x = cbind(1, x);bet = c(2, rep(1, p));y = c(x %*转载 2014-04-11 10:42:44 · 1764 阅读 · 0 评论 -
R Hadoop 与大数据
R的应用场景不在于无与伦比的统计学习能力,而在于结构化数据下无与伦比的单位代码产出量。神经网络,决策树等基于结构化数据的算法一行代码搞定,预测又只是一行代码。这样,商业数据库(如包括Oracle,Netezza,Teradata,SAP HANA等)提供了R接口供统计分析人员进行高效实施。 同样的,SAS和IBM SPSS也做到了一部分高效实施能力,他们没有的是R独有的庞大cran package转载 2014-04-11 00:09:26 · 1235 阅读 · 0 评论 -
R 日期
#日期型数据在R中自带的日期形式为:as.Date();以数值形式存储;对于规则的格式,则不需要用format指定格式;如果输入的格式不规则,可以通过format指定的格式读入;标准格式:年-月-日或者年/月/日;如果不是以上二种格式,则会提供错误;as.Date('23-2013-1')错误于charTo按照Date(x) : 字符串的格式不够标准明确> as.Dat转载 2014-04-11 11:55:00 · 729 阅读 · 0 评论 -
R数据导入读取read.table函数详解
函数 read.table 是读取矩形格子状数据最为便利的方式。因为实际可能遇到的情况比较多,所以预设了一些函数。这些函数调用了 read.table 但改变了它的一些默认参数。注意,read.table 不是一种有效地读大数值矩阵的方法:见下面的 scan 函数。一些需要考虑到问题是:编码问题如果文件中包含非-ASCII字符字段,要确保以正确的编码方式读取。这是在UTF-8的转载 2014-05-18 15:17:55 · 2540 阅读 · 0 评论 -
约翰霍普金斯大学数据科学系列课程
Coursera.org提供了约翰霍普金大学数据科学系列课程原创 2014-06-01 09:33:18 · 3610 阅读 · 0 评论 -
ggplot2:Elegant Graphics for Data Analysis 阅读摘要(未完)
ggplot2:Elegant Graphics for Data Analysis 阅读摘要 R语言的定义是:原创 2014-06-02 23:19:06 · 1547 阅读 · 0 评论 -
Python正在取代R,成为数据科学界新宠(转)
R:不是真正的语言人们学习R很困难的一部分原因是,它并不是一种真正的编程语言。John Cook是一位R专家,他曾说:“R是一个做统计的交互环境,不是一种真正的编程语言。把R看做包含有编程语言的交互环境会更有帮助。”但正如Bob Muenchen强调的,R甚至对于那些精通SAS和SPSS数据统计工具的人来说都是困难的。关于R为分析师降低了复杂性的问题,还有待争议,虽然R包含宏和矩阵转载 2014-06-26 11:38:47 · 735 阅读 · 0 评论 -
让R与Python共舞
原文网址: http://www.r66r.net/?p=129R(又称R语言)是一款开源的跨平台的数值统计和数值图形化展现 工具。通俗点说,R是用来做统计和画图的。R拥有自己的脚本语言和大量的统计、图形库(得益于开源社区),这让她看起来既美又实用。与其他同类软件(如 SPSS)相比,R的特点是纯命令行的,这倒也好,我们更应该把注意力放在数据本身,而非统计工具的UI。R虽说有一套自己的语言转载 2014-06-26 11:47:31 · 839 阅读 · 0 评论 -
RStudio presents Essential Tools for Data Science with R
The RStudio team recently rolled out new capabilities in RStudio, shiny, ggvis, dplyr, knitr, R Markdown, and packrat. The “Essential Tools for Data Science with R”free webinar series is the perfect转载 2014-07-18 14:57:12 · 1615 阅读 · 0 评论 -
Data Manipulation with R(Phil Spector) 阅读摘要
Data Manipulation with R 读书笔记原创 2014-05-17 00:00:09 · 2260 阅读 · 0 评论 -
R各个包里面的数据集列表
Package Item Title csv docdatasetsAirPassengersMonthly Airline Passenger Numbers 1949-1960CSVDOCdatasetsBJsalesSales Data with Leading IndicatorCSVDOC转载 2014-07-07 15:08:59 · 17126 阅读 · 0 评论 -
Must-Have R Packages for Social Scientists
Must-Have R Packages for Social ScientistsDecember 11, 2009By Drew Conway(This article was first published on Zero Intelligence Agents » R , and kindly contributed to R-bloggers)After recently转载 2014-06-20 20:20:41 · 888 阅读 · 0 评论 -
Google和facebook如何应用R进行数据挖掘
在R用户组织的主题为“R与预测分析科学”的panel会议上,有来自工业界的四位代表发表了讲话,介绍各自在工业界是如何应用R进行数据挖掘。他们分别是:Bo Cowgill, GoogleItamar Rosenn, FacebookDavid Smith, Revolution ComputingJim Porzak, The Generations Network 他们转载 2014-08-21 09:32:35 · 1023 阅读 · 0 评论 -
CRC出版社 2014 -2015 R新书介绍
http://www.crcpress.com/browse/series/crctherserParallel Computation in Data Science: With Examples in R Published:February 26, 2015Author(s):Norman MatloffWith a focus on multicore machin转载 2014-08-23 17:13:43 · 2472 阅读 · 1 评论 -
在R中批量导入数据文件
《》setwd("D:/data")fileName <- dir()N=length(fileName)datalist <- vector("list", N) # 建立一个空表for(i in 1:N){ datalist[[i]]=read.table(fileName[i],header=TRUE)}转载 2014-08-23 10:56:01 · 4989 阅读 · 0 评论 -
数据整形reshape
一、通过重新构建数据进行整形数据整形最直接的思路就把数据全部向量化,然后按要求用向量构建其他类型的数据。这样是不是会产生大量的中间变量、占用大量内存?没错。R语言的任何函数(包括赋值)操作都会有同样的问题,因为R函数的参数传递方式是传值不传址,变量不可能原地址修改后再放回原地址。矩阵和多维数组的向量化有直接的类型转换函数: as.vector,向量化后的结果顺序是先列后行再其他:转载 2014-08-26 08:58:44 · 1116 阅读 · 0 评论 -
小计64位win7上R读取excel过程
小计64位win7上R读取excel过程 首先尝试的是RODBC,不过过程相当不顺利我电脑上安装的是office 2003,ODBC数据源里面找不到excel的驱动程序原因是office是32为版本,安装的驱动程序无法在64位的win7上使用。运行c:\windows\sysWOW64\odbcad32.exe后,可以配置32为的ODBC数据源。按照网转载 2014-08-25 15:38:10 · 1958 阅读 · 0 评论 -
R 代码备查
本文收集一些个人认为比较有原创 2014-08-14 15:23:43 · 551 阅读 · 0 评论 -
R与金融时间序列分析常见问题集
【资料】文档1:《R与金融时间序列分析常见问题集》【包】library(zoo) #时间格式预处理library(xts) #同上library(timeSeires) #同上library(urca) #进行单位根检验library(tseries) #arma模型lib转载 2014-08-27 15:47:39 · 3356 阅读 · 0 评论 -
R向量化运算
一、背景当今社会,数据量剧增让我们越来越关注计算或算法的效率。“并行和分布式”计算是目前主流的能有效提升计算效率的方法,但学习及实施成本较高。所 以,向量化运算对于提升计算效率是个不错的选择。作为并行计算的先驱,向量化运算在提升计算效率的同时,也能一定程度上培养数据分析人员的结构化思维。向量化计算是一种特殊的并行计算的方式,相比于一般程序在同一时间只执行一个操作的方式,它可以在同一时间执行转载 2014-08-27 15:49:52 · 1167 阅读 · 0 评论 -
CRAN Task View: Time Series Analysis
CRAN Task View: Time Series AnalysisMaintainer:Rob J. HyndmanContact:Rob.Hyndman at monash.eduVersion:2014-08-26 Base R ships with a lot of functionality use转载 2014-08-27 16:05:46 · 3601 阅读 · 0 评论 -
R书籍推荐
接触R的时间很长了,但是真正对R感兴趣并认真学习是最近2,3年的事情。在此之前,我最常用的是matlab。我属于学习新知识比较慢的人,惯常采用多看多练的方式,看很多的书,再慢慢体会其中的妙处,就像牛的反刍。所以几年时间下来积累了不少关于R的书籍,在这里整理总结一下。很不幸的是,这里大部分都是英文的书。国内对于R的重视和普及还远远不够啊。 1.入门级读物 R的帮助文档中提供了一些入门转载 2014-08-27 16:17:20 · 1138 阅读 · 0 评论 -
The Art of R Programming--Extended Example(未完待续)
本文列出The Art of R Programming中Extended Example的精彩原创 2014-08-14 16:03:18 · 1167 阅读 · 0 评论 -
探索R包plyr:脱离R中显式循环
所有R用户接受的第一个“莫名其妙”的原则就是:不要在R中写显式循环...不要写显式循环...不要写循环...不循环...不...我第一次接受到这个“黄金律”,就跟当年从basic语言转到C语言的时候,老师说:不要写go to...不go to...不...一样的,好震撼。往往对于R用户来说,R基本上不可能是他们学习的第一门计算机语言,什么C啊转载 2014-09-12 11:35:13 · 849 阅读 · 0 评论 -
Coursera上的R语言课程
天登上Coursera一看,随便点开几门课居然都是用R来辅助的...R是什么时候悄悄的渗透到这么多大学和行业的哇?孤陋寡闻了呢。入门的,如专门的数据分析计算,有一门Computing for Data Analysis,是时长为4节的R语言课程。讲的貌似比较基础:This course is about learning the fundamental computing skil转载 2014-09-12 11:39:19 · 3416 阅读 · 0 评论 -
R语言扩展包dplyr笔记
plyr包中几个超级有用的数据处理函数 R语言绘图R语言扩展包dplyr笔记 2014-03-14 14:55:52| 分类:R | 标签:|举报|字号大中小 订阅http://bqnw.me/post/dplyr-note引言2014年刚到, 就在 Feedly 订阅里看到 RStudi转载 2014-09-12 14:59:10 · 5603 阅读 · 0 评论 -
R包实践:lubridate 处理时间数据
人生有一道难题,那就是如何使一寸光阴等于一寸生命。在数据分析中也有一道难题,那就是如何自如的操作时间数据。R语言的基础包中提供了两种类型的时间数据,一类是Date日期数据,它不包括时间和时区信息,另一类是POSIXct/POSIXlt类型数据,其中包括了日期、时间和时区信息。一般来讲,R语言中建立时序数据是通过字符型转化而来,但由于时序数据形式多样,而且R中存贮格式也是五花八门,例如Date/ts转载 2014-09-23 16:15:14 · 4713 阅读 · 0 评论