简介
- R可以完成数据分析设计的几乎所有步骤
- 数据获取
- 数据清理
- 数据分析
- 结果报告
- 发布结果
- 竞赛网站:https://www.kaggle.com
发布结果的平台: http://rpubs.com/
数据分析
- 探索性数据分析
- 了解数据
- 作图
- 统计推断(基于数据得出正式结论的过程)
- 原因
- 数据存在不确定性(噪音)
- 可以给出结论+结论出错的概率
- 原因
- 回归分析(主要针对线性回归分析)
- 通过模型拟合数据
- 预测变量
- 结果变量
- 预测
- 通过模型拟合数据
机器学习-分类问题
R中机器学习的包: caret
模型划分: createDataPartition()
模型训练: randomForest()
预测结果: predict()
比较: confusionMatrix()
开发数据产品
工具
- GoogleVis API
- R制作html,调用Google charts
- 生成交互式html图表
- R中的Manipulate包
rCharts
使用R制作交互式js可视化产品
Shiny
制作嵌入式网页的交互式R程序平台
Slidify
制作和发布基于R的报告(类似ppt),和其他数据分析配合使用
- GoogleVis API
安装
- 官方网站 https://cran.r-project.org/
安装方法:
- sudo apt-get udpate
- sudo apt-get install r-base
这样就能直接使用了,在search中能找到
- 安装RStudio
包
扩展R基本功能的机制,集成了众多函数
通常位置在CRAN(install.packages("xxx")
)/Bioconductor/GIthub(install_github("xxx")
)- 加载包
library(xxx)
- 加载包
- 自带数据集
- 加载数据集
data(xxx)
- 了解数据集的细节
?xxx
- 加载数据集
- get help
- 在RStudio中输入
?函数名
,这种方法得到的是R的帮助文档 - Stackoverflow
- 在RStudio中输入