[笔记]提升R的性能和突破内存限制的技巧

本文是《R语言大规模数据分析实战》课程笔记,聚焦于提升R的性能和解决内存限制问题。介绍了包括向量化、预先分配内存、避免内存拷贝、使用并行计算、以及使用Revolution R Enterprise等技巧。并详细讲解了如何利用parallel包和foreach+doParallel包进行并行计算,以加速计算过程。
摘要由CSDN通过智能技术生成

本文为雪晴数据网《R语言大规模数据分析实战》 http://www.xueqing.tv/course/56 的课程学习笔记。

该课程目前更新到“第2章 Microsoft R Server简介”的微软数据科学家介绍MRS,后续教学主要是关于MRS的内容,再另外学习,所以本文只学习“第1章 提升R的性能和突破内存限制的技巧”

1. 课程介绍

1.1 课程目录

第一章 突破R内存瓶颈的一些小技巧

  • 升级硬件和软件

  • 减少数据复制

  • 利用整数的优势

  • 有效地存储数据

  • 在转换数据的时候避免循环

  • 在关键函数里使用C、C++或Fortran

  • 尽可能地使用面向行的数据转换

  • 排序之前要三思

  • 使用bigmemory家族的包

  • 借助数据库

  • 使用Revolution R Enterprise(简称RRE)

第二章 RRE的简介

  • RRE学术版的下载与安装

  • RRE的功能介绍

  • 导入数据的函数

  • 概括数据的函数

  • RRE可视化功能

  • RRE所支持的算法介绍

第三章 用RRE做数据探索

  • 导入数据

  • 用rxGetVarInfo()函数查看数据的基本特征

  • 用rxSummary()函数计算数据的描述统计量

  • 用rxHistogram()分析数据的分布

  • 用rxLinePlot()可视化分析两个变量之间的关系

  • 用rxCrossTabs()分析变量间的关系

  • 用with rxCube()分析变量间的关系

第四章 用RRE做数据整理

  • 数据融合

  • 用rxDataStep()做数据变换

  • 用dplyrXdf包整理数据

第五章 用RRE做数据挖掘(案例实战)

  • 数据准备

  • 导入数据

  • 数据探索

  • 线性回归

  • 逻辑回归

  • K-means聚类

  • 决策树分类

1.2 课程视频目录

第1章:提升R的性能和突破内存限制的技巧

  • 如何提升R的性能

  • 并行计算

第2章:Microsoft R Server简介

  • 微软数据科学家介绍MRS

2. 第1章:提升R的性能和突破内存限制的技巧

2.1 如何提升R的性能

这一节先介绍提高R性能的几种方法,然后重点介绍如何利用R的内部机制来提升性能。

2.1.1 性能提升的方法

a.1 系统升级

  • 升级硬件

  • 使用64位操作系统

  • 利用GPU

  • 租用云计算服务器

a.2 开发层面的优化

  • 算法
    降低算法复杂度

  • 调用C/C++或者Fortran
    关键的、耗时的计算步骤

  • 缓冲技术
    减少重复计算

a.3 使用层面的优化

  • 充分利用R的内存机制——R的基础优化

  • 增强R的矩阵运算——加速BLAS

  • 并行计算

  • 大规模

  • 2
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值