本文为雪晴数据网《R语言大规模数据分析实战》 http://www.xueqing.tv/course/56 的课程学习笔记。
该课程目前更新到“第2章 Microsoft R Server简介”的微软数据科学家介绍MRS,后续教学主要是关于MRS的内容,再另外学习,所以本文只学习“第1章 提升R的性能和突破内存限制的技巧”。
1. 课程介绍
1.1 课程目录
第一章 突破R内存瓶颈的一些小技巧
升级硬件和软件
减少数据复制
利用整数的优势
有效地存储数据
在转换数据的时候避免循环
在关键函数里使用C、C++或Fortran
尽可能地使用面向行的数据转换
排序之前要三思
使用bigmemory家族的包
借助数据库
使用Revolution R Enterprise(简称RRE)
第二章 RRE的简介
RRE学术版的下载与安装
RRE的功能介绍
导入数据的函数
概括数据的函数
RRE可视化功能
RRE所支持的算法介绍
第三章 用RRE做数据探索
导入数据
用rxGetVarInfo()函数查看数据的基本特征
用rxSummary()函数计算数据的描述统计量
用rxHistogram()分析数据的分布
用rxLinePlot()可视化分析两个变量之间的关系
用rxCrossTabs()分析变量间的关系
用with rxCube()分析变量间的关系
第四章 用RRE做数据整理
数据融合
用rxDataStep()做数据变换
用dplyrXdf包整理数据
第五章 用RRE做数据挖掘(案例实战)
数据准备
导入数据
数据探索
线性回归
逻辑回归
K-means聚类
决策树分类
1.2 课程视频目录
第1章:提升R的性能和突破内存限制的技巧
如何提升R的性能
并行计算
第2章:Microsoft R Server简介
微软数据科学家介绍MRS
2. 第1章:提升R的性能和突破内存限制的技巧
2.1 如何提升R的性能
这一节先介绍提高R性能的几种方法,然后重点介绍如何利用R的内部机制来提升性能。
2.1.1 性能提升的方法
a.1 系统升级
升级硬件
使用64位操作系统
利用GPU
租用云计算服务器
a.2 开发层面的优化
算法
降低算法复杂度调用C/C++或者Fortran
关键的、耗时的计算步骤缓冲技术
减少重复计算
a.3 使用层面的优化
充分利用R的内存机制——R的基础优化
增强R的矩阵运算——加速BLAS
并行计算
大规模