RStudio统计分析的初学者指南
引言
你是否曾好奇短视频如何预测你想看的下一个视频?或者购物网站为何总能精准推荐你想买的商品?这一切都源于数据的力量——更准确地说,是数据分析。通过统计分析揭示数据规律,我们能做出更明智的决策,构建更智能的系统。幸运的是,我们拥有专为统计计算设计的强大编程语言R,以及其直观易用的集成环境RStudio,它们让数据分析和学习过程变得无比简单。
什么是R?
R是一种免费开源的编程语言和软件环境,专为统计计算、数据分析和图形可视化而设计。由Ross Ihaka和Robert Gentleman于1990年代开发,如今已成为数据科学、学术研究和商业分析中最主流的工具之一。为何选择R?其语法对新手友好,且拥有丰富的扩展包,特别适合数据建模、清洗和可视化等任务。
什么是RStudio?
RStudio是为R量身定制的集成开发环境(IDE),通过整洁的界面显著提升编码、测试和结果可视化的效率。无论是构建统计模型还是分析数据,它都能提供流畅的工作体验。
R与RStudio安装指南
以下是详细的安装步骤,助你快速搭建编程环境:
R安装流程
- 访问官网 www.r-project.org/
- 点击Download栏目下的CRAN镜像
- 选择 https://cloud.r-project.org/
- 在"Download and Install R"部分选择对应操作系统
- 运行.exe安装程序并等待完成
RStudio安装流程
- 访问Posit官网 https://posit.co/downloads/
- 点击Download RStudio按钮
- 下滑查看下载列表
- 选择对应系统版本自动下载安装包
- 运行.exe程序完成安装
RStudio工作区解析
安装完成后,界面主要分为四个功能区:
-
源代码编辑器(左上)
编写/编辑R脚本的核心区域,支持语法高亮、快捷执行和多文件管理
-
控制台(左下)
即时执行代码的交互窗口,可查看实时结果与错误提示
-
环境/历史记录(右上)
环境面板实时显示变量状态,历史面板保存所有执行过的命令
-
工具面板(右下)
集成文件浏览、图形展示、包管理和帮助文档的多功能区域
R编程基础语法
在接触统计工具前,先掌握这些基础语法:
-
输出内容
1a. 文本输出
用单/双引号包裹文本即可
1b. 数字输出
直接输入数字(无需引号)
-
注释
使用#号添加注释,该符号后的内容会被R忽略
-
基础运算
使用标准算术运算符进行计算:
-
+(加法)
-
- (减法)
-
*(乘法)
-
/ (除法)
-
^(幂运算)
-
%(取模)
4. 变量与赋值
声明和赋值变量时,首先键入要添加的变量名称。接着使用 <- 符号进行赋值,然后输入值。请注意为变量分配文本时需使用单引号或双引号。
5. 向量
创建向量时,先声明变量并为其赋值 c()。
6. 列表
创建列表时,先声明变量并为其赋值 list()。注意列表可以存储混合数据类型。
7. 数据框(表格)
创建表格时,先声明变量并为其赋值 data.frame()。
更多关于R语言的语法信息可查阅:https://www.w3schools.com/r/default.asp
R语言图形工具
了解R语言基础语法后,现在我们来学习如何使用R的不同图形工具实现数据可视化与展示。
- 基础绘图
R语言中的plot()函数是创建数据可视化的工具。它能根据输入数据类型自动生成不同图表,是快速探索数据关系、趋势和分布的便捷方式。
- 折线图
通过为plot()函数添加type=l参数,可以在现有图表上添加连接的线段。这不会创建新图表,而是修改当前活动图表。
- 饼图
pie()函数可创建饼图,通过将圆形分割成扇形来展示整体中各部分的比例关系。
- 条形图
barplot()函数通过绘制矩形条来展示分类数据,条形的长度/高度对应数值。在数量比较方面比饼图更精确。
R语言统计分析工具
本节我们将使用R语言内置数据集"airquality"(记录纽约空气质量水平的数据集)。如需自行测试这些统计分析工具/函数,以下是R语言中其他可用的内置数据集:
-
mtcars:一个包含32辆汽车燃油效率及多项性能指标的数据集。
-
iris(鸢尾花)数据集:包含三种鸢尾花各50朵样本的花萼与花瓣长度及宽度测量数据。
-
ToothGrowth:一个数据集,记录了60只豚鼠在通过橙汁或抗坏血酸补充维生素C后牙齿生长的实验数据。
-USArrests:一个包含美国各州暴力犯罪率统计数据的数据集。
-
最小值和最大值
要获取数据集的最小值和最大值,我们可以使用内置数学函数 min() 和 max()。
-
平均值
平均值是所有数值的总和除以观测值的数量,代表数据集的集中趋势。手动计算会非常耗时,因此我们可以使用内置函数 mean() 快速获取平均值。
-
中位数
中位数是排序后数据集的中间值,代表第50百分位数。在R中,可以使用内置函数 median() 快速找到中位数。
-
百分位数
百分位数将数据集分为100等份,帮助理解数值的分布(例如,“哪个值高于25%的数据?”)。在R中,可以使用内置函数 quantile() 计算百分位数。默认情况下,quantile() 函数会返回0、25、50、75和100的百分位数:
我们可以结合使用 c() 函数和 quantile() 函数来找到所需的百分位数值:
-
汇总
最后,我们可以使用 summary() 函数一次性显示最小值、第一四分位数、中位数、平均值、第三四分位数和最大值。
结论
R本身是一种强大的语言,当与RStudio结合使用时,它们提供了一个全面且用户友好的统计分析环境。两者结合使数据操作、可视化和建模变得更加简单,因此非常适合初学者入门。在本文中,我们探讨了为什么R和RStudio是统计分析的重要工具。无论是检查数据、评估模式还是可视化关系,R和RStudio都能提供多功能性和强大的功能,让你的想法变为现实。既然你已经掌握了基础知识,是时候进入下一阶段了。赶快安装R和RStudio,让这篇指南成为你进入数据分析世界的第一步。在你开始探索、实验并释放R的全部潜力时,将其作为你的指南。
参考文献
R: What is R? (n.d.). https://www.r-project.org/about.html
Worsley, S. (2023, October 17). What is R? - An Introduction to The Statistical Computing Powerhouse. https://www.datacamp.com/blog/all-about-r
W3Schools.com. (n.d.). https://www.w3schools.com/r/default.asp
-about-r](https://www.datacamp.com/blog/all-about-r)
W3Schools.com. (n.d.). https://www.w3schools.com/r/default.asp
R Built-in data sets - Easy Guides - Wiki - STHDA. (n.d.). https://www.sthda.com/english/wiki/r-built-in-data-sets