《R语言与数据挖掘最佳实践和经典案例》阅读摘要
Fly or die.—–sissp
一、简介
数据挖掘
统计学、机器学习、信息检索、模式识别、生物信息学
R CRAN(cran.r-project.org)
《An introduction to R》
《R language definition》
数据集
Iris数据集
Bodyfat数据集
二者都包含在R包中
二、数据的导入与导出
R数据的保存与加载
Save(a,file=“./data/dumData.Rdata”)
Rm(a)
load(“./data/dumData.Rdata”)
Print(a)
CSV文件的导入与导出
从SAS中导入数据
通过JDBC导入与导出数据
三、数据探索
查看数据,以iris数据集为例
维度,dim(iris)
名称,names(iris)
结构,str(iris)
属性,attributes(iris)
特定行数据,iris[1:5,],head(iris),tail(iris)
探索单个变量
单个数值型变量的分布情况可以使用函数summary()进行查看,分别为:最小值、最大值、平均值、中位数、第一四分位数、第三四分位数
平均值、中位数和极差可以分别使用函数mean()、median()、range()获取,四分位数和百分位数可以使用quantile()函数