R语言
Jie Qiao
邮箱:358463121@qq.com
展开
-
用plyr包扩展apply族函数的功能
apply族函数是R语言中很有特色的一类函数,包括了apply、sapply、lapply、tapply、aggregate等等。在这篇博文里对它们进行了简略的说明。这一类函数本质上是将数据进行分割、计算和整合。它们在数据分析的各个阶段都有很好的用处。例如在数据准备阶段,我们可以按某个标准将数据分组,然后获得各组的统计描述。或是在建模阶段,为不同组的数据建立模型并比较建模结果。apply族函数与G转载 2015-01-28 12:11:18 · 1185 阅读 · 0 评论 -
R语言做贝叶斯网络结构学习
实例分析pcalg包的安装贝叶斯网络结构学习iris数据集Adult数据集本文使用pcalg包做贝叶斯网络结构的学习实例分析pcalg包的安装安装pcalg包时由于有些依赖包已经被CRAN撤掉,所以安装起来有些技巧。 以下是安装代码:install.packages("pcalg")## 如果https://不行可以改成http://试试source("https://biocondu原创 2016-04-24 10:46:05 · 17834 阅读 · 0 评论 -
Rcpp实用手册
1.数据类型介绍C++对应于R的数据类型有如下这些: double⇔numeric int⇔integer String⇔character logical⇔bool在C++中可以直接使用R的对象有:`向量:NumericVector、IntegerVector、CharacterVector矩阵:NumericMatrix、IntegerMatrix、CharacterMatrix数原创 2016-02-23 20:12:53 · 3488 阅读 · 0 评论 -
SparkR数据分析
本文的运行环境是ubuntu,在阅读这篇文章前,请先保证你已经成功配置了Spark, 并设置好了全局变量 SPARK_HOME以及 PATH ,能够成功运行Spark.(如果你在终端输入sparkR 运行成功的话就证明你成功了) 如果还没有配置成功的话,参考这里,安装SPARK只需三步1.下载示例数据MovieLens 100k数据集 它包含了用户和电影信息,以及10万次用户对电影的评价,将其解原创 2016-01-20 16:23:58 · 2400 阅读 · 0 评论 -
R语言data.table速查手册
介绍R中的data.table包提供了一个data.frame的高级版本,让你的程序做数据整型的运算速度大大的增加。data.table已经在金融,基因工程学等领域大放光彩。他尤其适合那些需要处理大型数据集(比如 1GB 到100GB)需要在内存中处理数据的人。不过这个包的一些符号并不是很容易掌握,因为这些操作方式在R中比较少见。这也是这篇文章的目的,为了给大家提供一个速查的手册。data.tabl翻译 2016-07-14 17:59:46 · 11314 阅读 · 0 评论 -
R语言并行化基础与提高
本文将介绍R中的并行计算,并给出了一些常见的陷进以及避免它们的小技巧。 使用并行计算的原因就是因为程序运行时间太长。大部分程序都是可以并行化的,它们大部分都是Embarrassingly parallel。这里介绍几种可以并行化的方法:Bootstrapping交叉验证(Cross-validation)(Multivariate Imputation by Chained Equation翻译 2016-06-17 11:38:45 · 16225 阅读 · 2 评论 -
missForest一种非参数的缺失值填补方法
介绍对于处理现实中的数据时,我们常常会遇到缺失值,这里我们将介绍一种缺失值的填补方法missForest,这是利用随机森林来填补缺失值的非参数方法,他可以适用于任何类型的数据(连续、离散)。其他类似的缺失值填补方法还有MICE,在这里不做介绍。方法我们假设我们的数据是X=(X1,X2,...,Xp)X=(X_1,X_2,...,X_p)的n*p的一个矩阵。如果对于一个任意的变量XsX_s,我们想填充原创 2016-08-07 23:05:44 · 19053 阅读 · 8 评论 -
R语言xgboost自定义目标函数
要自定义xgboost的目标函数,有两种方式自定义目标函数(objective)自定义评价函数(feval)。如果是自定义目标函数你需要求解该目标函数的梯度以及二阶梯度。 例子:自定义的objectivelogregobj <- function(preds, dtrain) { labels <- getinfo(dtrain, "label") preds <- 1/(1 + e原创 2017-01-15 21:51:22 · 3912 阅读 · 0 评论 -
使用H2O进行集成学习
使用H2O进行集成学习介绍集成学习就是组合多个机器学习算法,从而得到更好的预测性能。许多流行的现代机器学习算法实际上就是集成。比如说随机森林 和 Gradient Boosting Machine (GBM)都是2个集成学习器。Bagging(例如随机森林)和boosting(例如GBM)是集成方法,其采用一系列弱学习器(例如,决策树)来得到单个,强大的集成学习器。H2O的Stacked集成算法是有翻译 2017-03-02 21:37:21 · 5980 阅读 · 0 评论 -
R语言stan概率编程
介绍数以千计的用户依靠stan在社会,生物和物理科学,工程和商业进行统计建模,数据分析和预测的工作。用户在Stan概率编程语言中可以基于对数概率密度函数,得到:完整的贝叶斯统计推理与MCMC抽样(NUTS,HMC)近似贝叶斯推理与变分推断(variational inference)(ADVI)优化最大惩罚似然估计(penalized maximum likelihood es...原创 2017-04-16 10:37:32 · 15336 阅读 · 2 评论 -
R语言data.table简介
data.table包提供了一个非常简洁的通用格式:DT[i,j,by],可以理解为:对于数据集DT,选取子集行i,通过by分组计算j,对比与dplyr等包,data.table的运行速度更快。创建一个data.tableset.seed(1)DF = data.frame(x=c("b","b","b","a","a"),v=rnorm(5))DF## x v##原创 2016-05-23 18:17:19 · 19132 阅读 · 0 评论 -
机器学习模型评价指标及R实现
1.ROC曲线考虑一个二分问题,即将实例分成正类(positive)或负类(negative)。对一个二分问题来说,会出现四种情况。如果一个实例是正类并且也被 预测成正类,即为真正类(True positive),如果实例是负类被预测成正类,称之为假正类(False positive)。相应地,如果实例是负类被预测成负类,称之为真负类(True negative),正类被预测成负类则为假负类(fal原创 2016-06-10 22:32:34 · 10725 阅读 · 0 评论 -
Windows使用OpenBLAS加速R语言计算速度
x<-matrix(1:(6000*6000),6000,6000)system.time(tmp首先告诉大家怎么安装OpenBLAS在这里下载最新的版本http://sourceforge.net/projects/openblas/files/打开最新版本的文件夹,现在最新的是v0.2.13,有如下几个文件原创 2015-01-14 18:03:10 · 5402 阅读 · 2 评论 -
R语言如何将字符串转变为命令执行
这里用到 eval() 和 parse() 函数。首先使用 parse() 函数将字符串转化为表达式(expression),而后使用 eval() 函数对表达式求解。x a class (a)eval(parse(text = a))转载 2015-01-03 16:51:29 · 15385 阅读 · 0 评论 -
关于R语言加载rJava失败解决方法
library(rJava)Error : loadNamespace()里算'rJava'时.onLoad失败了,详细内容: 调用: inDL(x, as.logical(local), as.logical(now), ...) 错误: unable to load shared object 'f:/Program Files/R/R-3.1.2/library/rJava/原创 2014-11-24 19:37:14 · 11737 阅读 · 2 评论 -
R语言最好用的IDE RStudio (附白屏解决方法)
下载页面:http://www.rstudio.com/products/rstudio/download/原创 2014-11-24 18:23:03 · 11883 阅读 · 6 评论 -
R语言从字符串中读取dataframe方法
方法一:这个方法对read.table同样适用> table<-"v1,v2+ 1,2+ 3,4+ "> read.csv(text=table) v1 v21 1 22 3 4方法二: 使用 textConnection() 这个函数 textConnection可以将各种对象作为输入对象,这些对象可以是文件,URL,或者字符> table<-"v1,v2+ 1,2原创 2015-02-17 12:56:39 · 3550 阅读 · 0 评论 -
R语言将汉字转化为拼音方法
本文利用了Rcpp包,将C++代码直接在R语言里编译调用,从而实现将汉字转化为拼音,使用方法,将C++代码保存为pinyin.cpp,然后在R语言用sourceCpp()函数编译之后就会出现函数getLetter了 效果:> library(Rcpp)> sourceCpp("pinyin.cpp")> getLetter("试试效果怎样")[1] "SHISHIXIAOGUOZENYANG原创 2015-03-08 21:21:41 · 7824 阅读 · 2 评论 -
rstudio server让用户共享一个library库
如果还没部署好rstudio server的请先看这里: http://blog.fens.me/r-rstudio-server/分配好用户,并设好分组之后, 可以使用.libPaths()看到library路径> .libPaths()[1] "/home/xxx/R/x86_64-pc-linux-gnu-library/3.0" "/usr/local/lib/R/site-libra原创 2015-04-03 17:38:34 · 3638 阅读 · 0 评论 -
利用R语言获取最新所有股票数据
本文利用这里提到的方法,进行改进,从而批量获取所有最新的股票数据,并对股票数据进行了简单的统计。原创 2015-08-25 21:23:53 · 24783 阅读 · 6 评论 -
R语言利用RCurl下载验证码图片
这里有一个网站的验证码图片需要给定的header才能正常显示, http://push.shangdu.com/regcode.php?token=prrX73LtmN_63uEcKh0a2Z1opo1ZgdcBJ 如果你直接打开它的话,会发现没有任何图案,因此通过普通的get是不能够实现的,必须要加上header的参数来获取验证码图。 代码很简单,如下:library(RCurl)myHt原创 2015-07-19 18:58:39 · 1601 阅读 · 0 评论 -
R语言实用小技巧
这篇文章介绍的是我平时写程序遇到的各种小问题,以及解决他们的小技巧1.R语言读取EXCEL2.如何在R中构造一个hash函数3.如何用最快最简单的方法加快R的执行速度?4.如何读取一个文件夹所有的文件?原创 2016-06-27 17:28:00 · 8563 阅读 · 1 评论