用R预览数据集的具体内容,R的著名内置数据集

 下面内容摘录自《用R 探索医药数据科学》专栏文章的部分内容。

1)栏目后续章节的文章将深入概括R语言在临床研究和新药创新领域的应用,填补了国内R教材中尚未广泛覆盖的部分内容。

2)专栏每篇文章都在 5000 字以上,质量平均分高达 94 分。已发表章节也会增加新的文章,已发表的文章也会更新版本,可留意专栏内容和题目信息。

3)由于每结束一个章节,专栏的优惠力度就会减小,当下正是订阅的最佳优惠时段,诚邀各位积极订阅!看全文请点击下面链接​​​​​​​。

2章5节:R的数据集读取和利用,如何高效地直接复制黏贴数据到R_r语言 复制数据集-CSDN博客文章浏览阅读686次。​​​​​​R语言自带了许多内部数据集,这些数据集不仅为初学者提供了丰富的练习资源,还为研究人员和数据分析师提供了方便的数据测试和模型验证工具。在这篇文章中,我们将详细探讨如何读取和使用数据集。_r语言 复制数据集https://blog.csdn.net/2301_79425796/article/details/140606583?csdn_share_tail=%7B%22type%22%3A%22blog%22%2C%22rType%22%3A%22article%22%2C%22rId%22%3A%22140606583%22%2C%22source%22%3A%222301_79425796%22%7D

欢迎订阅我们专栏

.......前面部分请点击上面链接看原文(原文5896字)

数据集(Dataset)是由数据所组成的集合,通常以表格形式出现。每一列代表一个特定变量,每一行对应于某一成员的数据。数据集可以包含数值数据、文本数据、图像数据、视频数据等多种类型的信息,并且可以以各种格式存储,如CSV、JSON、SQL等。

3、预览数据集的具体内容

让我们以AirPassengers数据集为例,展示如何使用内置数据集进行数据分析和可视化。

1 加载数据集

首先,我们需要加载AirPassengers数据集:

data("AirPassengers")
2 查看数据集

加载数据集后,我们可以查看数据集的前几行。

head(AirPassengers)
# [1] 112 118 132 129 121 135

head()函数是R语言中用于查看数据集前几行数据的常用函数。它的基本用法是传入一个数据集,返回该数据集的前6行数据。可以通过n参数自定义返回的行数,例如head(AirPassengers, n = 10)返回前10行。head()函数帮助我们快速预览数据、调试和检查数据,常与summary()tail()等函数结合使用,以全面了解数据集的结构和内容。

3 数据集概览

我们也可以使用summary()函数快速查看数据集的基本统计信息:

summary(AirPassengers)

summary()函数是R语言中用于生成数据集或统计模型的摘要统计信息。它可以快速提供关于数据集的基本统计描述,包括最小值、最大值、四分位数、中位数和均值等。这个函数也可以应用于各种对象,如向量、数据框、时间序列、线性模型等。它会根据对象类型自动生成适当的摘要信息。

输出结果如下:

   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
  104.0   180.0   265.5   280.3   360.5   622.0 
  1. 最小值(Min.)为104.0千人(10.4万人),表示数据集中乘客数量的最低值。
  2. 第一四分位数(1st Qu.)为180.0千人(18.0万人),这意味着25%的数据点低于或等于180千人。
  3. 中位数(Median)为265.5千人(26.55万人),表示数据的中间值,即50%的月份乘客数量低于或等于265.5千人。
  4. 均值(Mean)为280.3千人(28.03万人),是所有数据点的平均值,反映了数据集的总体趋势。
  5. 第三四分位数(3rd Qu.)为360.5千人(36.05万人),表示75%的数据点低于或等于360.5千人。
  6. 最大值(Max.)为622.0千人(62.2万人),表示数据集中乘客数量的最高值。
4 数据可视化

接下来,我们使用R语言的绘图功能对AirPassengers数据集进行可视化。我们可以绘制时间序列图,展示1949年至1960年每个月的航空乘客数量变化情况。

plot(AirPassengers, main="Monthly Airline Passenger Numbers 1949-1960", xlab="Year", ylab="Number of Passengers", col="blue", type="o")

这段代码将生成所示的时间序列图,其中 plot()函数是用于绘制图形,其它参数以后在绘图章节再讲。从图中可以清晰地看到乘客数量随着时间的推移呈现上升趋势,并且具有明显的季节性波动,如下图。

4、R的著名内置数据集

名称描述主要用途
ToothGrowth记录了60只大鼠在不同剂量的维生素C下的牙齿生长情况。实验设计分析、方差分析、医学研究
ChickWeight记录了不同喂养方案下小鸡的体重增长情况。生物统计学研究、实验数据分析、趋势建模
longley记录了1947-1962年间的美国经济数据,包括国民生产总值、就业人数等。经济研究、回归分析、时间序列分析
iris记录了150种鸢尾花的花萼长度、花瓣长度等数据,每种鸢尾花有50个样本。分类算法测试、聚类分析、特征选择
mtcars包含1974年美国汽车的数据,包括各种汽车参数,如马力、重量等。汽车性能分析、回归模型、数据可视化
airquality包含1973年5月到9月的纽约市空气质量数据,包括臭氧、二氧化硫等污染物浓度。环境科学研究、时间序列分析、污染物趋势分析
faithful包含了黄石公园间歇泉喷发的等待时间和喷发持续时间的数据。数据可视化、统计建模、数据分析
PlantGrowth包含了三种不同肥料对植物生长的影响数据。实验设计分析、方差分析、农业研究
cars包含了50辆车在不同速度下的刹车距离数据。回归分析、速度与刹车距离关系研究

 ........

欢迎订阅我们专栏,深度系统地学习R语言。 

为帮助大家更出色地掌握临床统计、数据挖掘以及人工智能建模的入门知识和应用,由于众多同学在计算机编程上经验欠缺,特此开设《用R 探索医药数据科学》专栏。该专栏每周至少会定期更新三篇,直到整个专栏更新完成。每篇文章都在 5000 字以上,质量平均分高达 94 分。还要提醒大家的是,每结束一个章节,专栏的优惠力度就会减小,当下正是订阅的最佳优惠时段,诚邀各位积极订阅!

专栏《用R 探索医药数据科学》链接:https://blog.csdn.net/2301_79425796/category_12729892.html?spm=1001.2014.3001.5482

​​

  • 2
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

数据科学和人工智能兴趣组

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值