下面内容摘录自《用R探索医药数据科学》专栏文章的部分内容。
1)栏目后续章节的文章将深入概括R语言在临床研究和新药创新领域的应用,填补了国内R教材中尚未广泛覆盖的部分内容。
2)专栏每篇文章都在 5000 字以上,质量平均分高达 94 分。已发表章节也会增加新的文章,已发表的文章也会更新版本,可留意专栏内容和题目信息。
3)由于每结束一个章节,专栏的优惠力度就会减小,当下正是订阅的最佳优惠时段,诚邀各位积极订阅!看全文请点击下面链接。
欢迎订阅我们专栏
.......前面部分请点击上面链接看原文(原文5873字)
一、认识数据集
1、数据和数据集
数据(Data)是指以某种形式表示的事实、概念或指令的集合,可以通过观察、测量、调查等方式收集得到。数据可以是数字、文字、图像、声音等多种形式,用于描述事物的特征或状态。
数据集(Dataset)是由数据所组成的集合,通常以表格形式出现。每一列代表一个特定变量,每一行对应于某一成员的数据。数据集可以包含数值数据、文本数据、图像数据、视频数据等多种类型的信息,并且可以以各种格式存储,如CSV、JSON、SQL等。
一般来说,数据集通常用于分析、研究、机器学习模型训练等目的。它们可以是静态的,用于特定的分析任务,或者动态的,随着时间不断更新。数据集的结构可以是结构化的(如表格形式)或非结构化的(如文本、图像)。
R语言内置了大量数据集,这些数据集涵盖了广泛的领域,包括经济、社会科学、医学、生态学等,使学习者能够在多种情境下进行数据探索和分析。内置数据集有下面的好处:1)R的内置数据集可以通过简单的命令直接加载和使用,用户无需额外下载或导入数据。2)通过对这些数据集的操作,学习者可以更加专注于掌握数据读取、清洗、转换、分析和可视化等各类技能,为进一步的研究和实际应用打下坚实的基础。3)R的内置数据集涵盖了多个学科和领域的各种数据类型和结构,从简单的二维表格数据到复杂的多维数据,使学习者能够在不同的分析场景中找到合适的数据集进行实践。
2、查看内置的数据集
R语言内置的数据集可以通过data()
函数查看。输入data()
后,我们可以看到有哪些数据集(数据值暂时按照首要字母的AZ顺序排列),其中第一列指的是数据集的名称,第二列是数据集的简单介绍。
data()
运行上述代码后,会显示一个包含所有内置数据集的列表,如下图。
为了更详细地了解某个特定数据集,我们可以在数据集名字前加上?
,即可展示更多的相关信息。
?AirPassengers
这段代码将显示AirPassengers
数据集的详细信息,如下图。
从上图,我们可以知道AirPassengers
数据集记录了1949年至1960年间国际航空乘客的月度总数。该数据集以每月为单位,数据单位为千人。数据来源于Box和Jenkins的经典时间序列分析著作《Time Series Analysis, Forecasting and Control》(1976年第三版)。
........
欢迎订阅我们专栏,深度系统地学习R语言。
为帮助大家更出色地掌握临床统计、数据挖掘以及人工智能建模的入门知识和应用,由于众多同学在计算机编程上经验欠缺,特此开设《用R 探索医药数据科学》专栏。该专栏每周至少会定期更新三篇,直到整个专栏更新完成。每篇文章都在 5000 字以上,质量平均分高达 94 分。还要提醒大家的是,每结束一个章节,专栏的优惠力度就会减小,当下正是订阅的最佳优惠时段,诚邀各位积极订阅!
专栏《用R 探索医药数据科学》链接:https://blog.csdn.net/2301_79425796/category_12729892.html?spm=1001.2014.3001.5482