下面内容摘录自《用R 探索医药数据科学》专栏文章的部分内容。
1)栏目后续章节的文章将深入概括R语言在临床研究和新药创新领域的应用,填补了国内R教材中尚未广泛覆盖的部分内容。
2)专栏每篇文章都在 5000 字以上,质量平均分高达 94 分。已发表章节也会增加新的文章,已发表的文章也会更新版本,可留意专栏内容和题目信息。
3)由于每结束一个章节,专栏的优惠力度就会减小,当下正是订阅的最佳优惠时段,诚邀各位积极订阅!看全文请点击下面链接。
欢迎订阅我们专栏
.......前面部分请点击上面链接看原文(原文5896字)
数据集(Dataset)是由数据所组成的集合,通常以表格形式出现。每一列代表一个特定变量,每一行对应于某一成员的数据。数据集可以包含数值数据、文本数据、图像数据、视频数据等多种类型的信息,并且可以以各种格式存储,如CSV、JSON、SQL等。
3、预览数据集的具体内容
让我们以AirPassengers
数据集为例,展示如何使用内置数据集进行数据分析和可视化。
1 加载数据集
首先,我们需要加载AirPassengers
数据集:
data("AirPassengers")
2 查看数据集
加载数据集后,我们可以查看数据集的前几行。
head(AirPassengers)
# [1] 112 118 132 129 121 135
head()
函数是R语言中用于查看数据集前几行数据的常用函数。它的基本用法是传入一个数据集,返回该数据集的前6行数据。可以通过n
参数自定义返回的行数,例如head(AirPassengers, n = 10)
返回前10行。head()
函数帮助我们快速预览数据、调试和检查数据,常与summary()
、tail()
等函数结合使用,以全面了解数据集的结构和内容。
3 数据集概览
我们也可以使用summary()
函数快速查看数据集的基本统计信息:
summary(AirPassengers)
summary()
函数是R语言中用于生成数据集或统计模型的摘要统计信息。它可以快速提供关于数据集的基本统计描述,包括最小值、最大值、四分位数、中位数和均值等。这个函数也可以应用于各种对象,如向量、数据框、时间序列、线性模型等。它会根据对象类型自动生成适当的摘要信息。
输出结果如下:
Min. 1st Qu. Median Mean 3rd Qu. Max.
104.0 180.0 265.5 280.3 360.5 622.0
- 最小值(Min.)为104.0千人(10.4万人),表示数据集中乘客数量的最低值。
- 第一四分位数(1st Qu.)为180.0千人(18.0万人),这意味着25%的数据点低于或等于180千人。
- 中位数(Median)为265.5千人(26.55万人),表示数据的中间值,即50%的月份乘客数量低于或等于265.5千人。
- 均值(Mean)为280.3千人(28.03万人),是所有数据点的平均值,反映了数据集的总体趋势。
- 第三四分位数(3rd Qu.)为360.5千人(36.05万人),表示75%的数据点低于或等于360.5千人。
- 最大值(Max.)为622.0千人(62.2万人),表示数据集中乘客数量的最高值。
4 数据可视化
接下来,我们使用R语言的绘图功能对AirPassengers
数据集进行可视化。我们可以绘制时间序列图,展示1949年至1960年每个月的航空乘客数量变化情况。
plot(AirPassengers, main="Monthly Airline Passenger Numbers 1949-1960", xlab="Year", ylab="Number of Passengers", col="blue", type="o")
这段代码将生成所示的时间序列图,其中 plot()
函数是用于绘制图形,其它参数以后在绘图章节再讲。从图中可以清晰地看到乘客数量随着时间的推移呈现上升趋势,并且具有明显的季节性波动,如下图。
4、R的著名内置数据集
名称 | 描述 | 主要用途 |
---|---|---|
ToothGrowth | 记录了60只大鼠在不同剂量的维生素C下的牙齿生长情况。 | 实验设计分析、方差分析、医学研究 |
ChickWeight | 记录了不同喂养方案下小鸡的体重增长情况。 | 生物统计学研究、实验数据分析、趋势建模 |
longley | 记录了1947-1962年间的美国经济数据,包括国民生产总值、就业人数等。 | 经济研究、回归分析、时间序列分析 |
iris | 记录了150种鸢尾花的花萼长度、花瓣长度等数据,每种鸢尾花有50个样本。 | 分类算法测试、聚类分析、特征选择 |
mtcars | 包含1974年美国汽车的数据,包括各种汽车参数,如马力、重量等。 | 汽车性能分析、回归模型、数据可视化 |
airquality | 包含1973年5月到9月的纽约市空气质量数据,包括臭氧、二氧化硫等污染物浓度。 | 环境科学研究、时间序列分析、污染物趋势分析 |
faithful | 包含了黄石公园间歇泉喷发的等待时间和喷发持续时间的数据。 | 数据可视化、统计建模、数据分析 |
PlantGrowth | 包含了三种不同肥料对植物生长的影响数据。 | 实验设计分析、方差分析、农业研究 |
cars | 包含了50辆车在不同速度下的刹车距离数据。 | 回归分析、速度与刹车距离关系研究 |
........
欢迎订阅我们专栏,深度系统地学习R语言。
为帮助大家更出色地掌握临床统计、数据挖掘以及人工智能建模的入门知识和应用,由于众多同学在计算机编程上经验欠缺,特此开设《用R 探索医药数据科学》专栏。该专栏每周至少会定期更新三篇,直到整个专栏更新完成。每篇文章都在 5000 字以上,质量平均分高达 94 分。还要提醒大家的是,每结束一个章节,专栏的优惠力度就会减小,当下正是订阅的最佳优惠时段,诚邀各位积极订阅!
专栏《用R 探索医药数据科学》链接:https://blog.csdn.net/2301_79425796/category_12729892.html?spm=1001.2014.3001.5482