R语言处理 1G~10G 的数据可以选择使用 bigmemory,超过 10G 可以考虑 RHadoop
1:安装bigmemory
>install.packages('bigmemory')
2:bigmemory的基本使用
1)初始化一个big.matrix对象:
//nrow:行数 ncol:列数 type:数据类型(矩阵所有数据类型必须是一样的) init:初始化数据
//dinnames:list对象(两列),第一列表述行标识,第二列表示列标识 backingfile:备份数据 descriptorfile:描述文件
> bigData <- big.matrix(nrow=10, ncol=4, type='integer', init=2, dimnames=list(1:10,c('c1','c2', 'c3', 'c4')),
backingfile='bigData.bin', descriptorfile='bigData.desc')
> bigData[1:10]
c1 c2 c3 c4
1 2 2 2 2
2 2 2 2 2
3 2 2 2 2
4 2 2 2 2
5 2 2 2 2
6 2 2 2 2
7 2 2 2 2
8 2 2 2 2
9 2 2 2 2
10 2 2 2 2
2)加载存储的大数据对象
> loadBigD