大数据、并行计算&R
悟乙己
心如花木,皆向阳而生!
展开
-
R语言之内存管理
转载于:http://blog.csdn.net/hubifeng/article/details/41113789在处理大型数据过程中,R语言的内存管理就显得十分重要,以下介绍几种常用的处理方法。1,设置软件的内存[plain] view plain copymemory.size(2048) #设置内存大小 memory转载 2016-02-11 16:33:10 · 5073 阅读 · 0 评论 -
R语言︱H2o深度学习的一些R语言实践——H2o包
R语言H2o包的几个应用案例 笔者寄语:受启发想了解H2o平台的一些R语言实现,网上已有一篇H2o的demo文件。笔者在这多贴一些案例,并且把自己实践的一些小例子贴出来。 关于H2o平台长啥样,可以看H2o的官网,关于深度学习长啥样,可以看一些教程,比如ParallelR博客之中的解析。下面主要是贴几个案例,让大家看看。 本文中介绍的原创 2016-04-22 12:39:04 · 19822 阅读 · 2 评论 -
caffe镜像︱window10+docker+ubuntu14.04+caffe镜像的简单尝试
win10专业版可以利用Hyper-V开启docker,一般升级而来的都是家庭版,现在要升级到win10专业版, 需要产品秘钥。 github网址:https://github.com/docker/for-win .一、Docker for Windows安装的教程可以看:http://blog.csdn.net/zdy0_2004/article/details/52084452原创 2017-03-05 14:16:33 · 4573 阅读 · 0 评论 -
sparklyr包:实现Spark与R的接口+sparklyr 0.5
本文转载于雪晴数据网日前,Rstudio公司发布了sparklyr包。该包具有以下几个功能:实现R与Spark的连接—sparklyr包提供了一个完整的dplyr后端筛选并聚合Spark数据集,接着在R中实现分析与可视化利用Spark的MLlib机器学习库在R中实现分布式机器学习算法可以创建一个扩展,用于调用Spark API。并为Spark的所有包集提供了一个接口未来转载 2016-10-07 13:24:00 · 8864 阅读 · 2 评论 -
R︱sparkR的安装与使用、函数尝试笔记、一些案例
本节内容转载于博客: wa2003 —————————————————————————————————————一、SparkR 1.4.0 的安装及使用1、./sparkR打开R shell之后,使用不了SparkR的函数装在了 /usr/local/spark-1.4.0/ 下[root@master sparkR]#./bin/sparkR能进入R,和没装SparkR的一样,无报错> li转载 2016-12-01 15:14:03 · 4227 阅读 · 0 评论 -
R︱foreach+doParallel并行+联用迭代器优化内存+并行机器学习算法
接着之前写的并行算法parallel包,parallel相比foreach来说,相当于是foreach的进阶版,好多东西封装了。而foreach包更为基础,而且可自定义的内容很多,而且实用性比较强,可以简单的用,也可以用得很复杂。笔者将自己的学习笔记记录一下。R︱并行计算以及提高运算效率的方式(parallel包、clusterExport函数、SupR包简介)——————————————————原创 2016-11-26 15:11:08 · 12145 阅读 · 1 评论 -
R︱Linux+Rstudio Server尝鲜笔记(打造最佳Rstudio体验+报错的解决方案)
Rstudio Server 是Rstudio开发的基于R语言的网页版(只能在Linux),你在手机上都可以运行R,还是挺方便的。就是配置起来有点麻烦。 官方下载链接:https://www.rstudio.com/products/rstudio/download-server/————————————————————————————————1、为啥笔者觉得Rstudio Server原创 2016-11-29 12:17:06 · 11361 阅读 · 0 评论 -
R︱并行计算以及提高运算效率的方式(parallel包、clusterExport函数、SupR包简介)
终于开始攻克并行这一块了,有点小兴奋,来看看网络上R语言并行办法有哪些。 同时并行时对内存的消耗极大,超级容易爆发内存问题,而且R的内存问题一直都是R很难解决的问题,这边笔者也把看到的一些方式列出来。 当然在使用一些高大上的并行包以及框架之前,如果你能够从编码小细节优化,效率也能提高很多。在最后笔者在实践中遇到的问题,进行对应的解决:应用一:使用parallel包时,能不能clusterExport整个函数呢?应用二:在使用parallel包时,报错:Error in unserialize(no原创 2016-10-01 22:54:13 · 31973 阅读 · 3 评论 -
网页版Rstudio︱RStudio Server多人在线协作开发
网页版Rstudio︱RStudio Server多人在线协作开发 想了解一下RStudio Server,太给力的应用,可以说成是代码分布式运行,可以节省时间,放大空间。 RStudio是一个非常优秀的R语言IDE。 RStudio除了在各种系统中有桌面版本外还有Server版,它可以装载在linux主机上,用户可以通过浏览器远程登录使用R进行数据分析。笔者在之前也曾经折腾...原创 2016-02-17 16:39:15 · 19652 阅读 · 3 评论 -
Sparklyr与Docker的推荐系统实战
作者:Harry Zhu链接:https://zhuanlan.zhihu.com/p/21574497来源:知乎著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。相关内容: sparklyr包:实现Spark与R的接口,会用dplyr就能玩Spark概述大数据时代,做数据分析的人才辈出,Java、Scala、Go、Julia、转载 2016-10-07 13:33:03 · 2468 阅读 · 0 评论 -
R语言自动化报告格式——knitr
R语言自动化报告格式——knitr一、背景在R的世界里,凡是提到自动化报告,很多人就会想到Sweave,它已经诞生十几年了。它的主要设计思想来自于文学化编程(Literate Programming),这是Knuth大神提出来的一种编程范式,它与传统的结构化编程不同。knitr (发音为:nit-ter)是由纯文本 (就像你正在阅读的) 和R代码交织在一起的文档文件. 用作者的话来说就原创 2015-08-12 19:22:40 · 10947 阅读 · 1 评论 -
提升R代码运算效率的11个实用方法——并行、效率
转载于36大数据,原文作者:Selva Prabhakaran 译者:fibears众所周知,当我们利用R语言处理大型数据集时,for循环语句的运算效率非常低。有许多种方法可以提升你的代码运算效率,但或许你更想了解运算效率能得到多大的提升。本文将介绍几种适用于大数据领域的方法,包括简单的逻辑调整设计、并行处理和Rcpp的运用,利用这些方法你可以轻松地处理1亿行以上的数据集。让我们转载 2016-10-01 22:46:38 · 2118 阅读 · 0 评论 -
学习笔记︱深度学习以及R中并行算法的应用(GPU)
笔记源于一次微课堂,由数据人网主办,英伟达高级工程师ParallerR原创。大牛的博客链接:http://www.parallelr.com/training/由于本人白痴,不能全部听懂,所以只能把自己听到的写个小笔记。一、GPU的基本概念GPU计算比CPU计算要快很多,计算机用GPU会大大加大速度问题:现在不是有量子计算,GPU与其有什么区别?那么量子计算原创 2016-06-17 14:15:15 · 9311 阅读 · 0 评论 -
R语言︱大数据集下运行内存管理
在实操时出现以下的问题:Error: cannot allocate vector of size 2.9GB大神指导(http://bbs.pinggu.org/thread-3682816-1-1.html)cannot allocate vector就是典型的数据太大读不了方法有三一、升级硬件二、改进算法三、修改操作系统分配给R的内存上限, memory.转载 2016-04-10 18:48:51 · 25096 阅读 · 1 评论 -
Ray︱高性能的分布式执行引擎 起个头~
Ray是一个神奇的平台,可以做分布式训练,由于最近还不需要分布式去做一些模型,所以先Mark一下,等到有需求的时候在,再学习,只能说Ray,异常强大!文档:http://ray.readthedocs.io/en/latest/index.htmlgithub:https://github.com/ray-project/ray作者博客:https://rise.cs.berkeley....原创 2018-03-28 17:32:15 · 4189 阅读 · 2 评论