下面内容摘录自《R 语言与数据科学的终极指南》专栏文章的部分内容,每篇文章都在 5000 字以上,质量平均分高达 94 分,看全文请点击下面链接。
欢迎订阅我们专栏
.......前面部分请点击上面链接看原文(原文5425字)
一、数据的基本概念
1、变量和对象
变量(Variable)是储存数据的抽象概念,主要为了让数据存放到计算机内存的某个空间位置。可以将变量比作不同大小的“容器”,每个容器可以容纳特定类型和数量的数据元素(或元值、元数据)。这些“容器”有大有小,有的适合装数字,有的适合装字符,还有的可以装更复杂的数据结构,就像我们日常生活中用来装不同物品的箱子、瓶子和袋子一样。数据元素(Data element)是数据的基本单位,类似于容器里的单个物品。
对象(Object)是指可以赋值给变量的任何事物。在R中,对象就像是这些容器中的具体内容,包括数据、函数、公式、图表、包等各种形式。R中的数据变量都以对象的形式保存在内存中,就像我们将物品放入容器中以便于存储和使用。对象的名字必须以字母开头(大小写皆可),中间可以包含数字、点(.)及下划线(_)。例如,dat3.a、dat_a都是合理的对象名,而_dat3则不是。需要注意的是,R对大小写敏感,因此a和A是不同的对象,类似于我们在现实中区分物品时的精确性,比如红苹果和青苹果是不同的水果,即使它们都是苹果。
2、变量的类型
在数据科学和统计学中,变量是研究对象的基本要素。根据变量的性质和特点,可以将其分为两大类:分类型变量(Categorical variables)和数值型变量(Numerical variables)。这两类变量在数据分析和处理时有着不同的应用和方法。
分类型变量(Categorical Variables)
分类型变量,又称定性变量(Qualitative variables),是指通过定性方法确定的,用于描述观察单位某项属性特征或类别的指标。根据分类项数和类别之间是否存在顺序关系,分类型变量可以进一步分为有序分类变量(Ordinal categorical variables)和无序分类变量(Unordered categorical variables)。
有序分类变量(Ordinal Categorical Variables)
有序分类变量是指各类别之间存在程度上的差别,类别之间具有一定的顺序。例如:
- 尿糖化验结果:(-、±、+、++、+++)
- 疗效:治愈、显效、好转、无效
在这些例子中,每个类别不仅描述了不同的状态,还暗示了这些状态之间的顺序或等级关系。
无序分类变量(Unordered Categorical Variables)
无序分类变量是指各类别或属性之间无程度和顺序的差别。例如:
- 性别:男、女
- 药物反应:阴性、阳性
- 血型:O、A、B、AB
这些变量的各类别之间没有顺序关系,每个类别只是不同的分类,不存在高低或优劣之分。
数值型变量(Numerical Variables)
数值型变量,又称定量变量(Quantitative variables),是指通过定量方法测定的,具有数值大小(高低或多少)的指标。根据其取值的连续性,数值型变量可以分为连续型变量(Continuous variables)和离散型变量(Discrete variables)。
连续型变量(Continuous Variables)
连续型变量是在一定区间内可以任意取值并且可以取无限多个数值的变量。例如:
- 身高(Height)
- 体重(Weight)
- 血压(Blood pressure)
这些变量在其取值范围内是连续的,可以是任何实数值。
离散型变量(Discrete Variables)
离散型变量是通过计数方式取得的变量,取值为有限个或可数的离散数值。例如:
- 脉搏(Pulse rate)
- 白细胞计数(White blood cell count)
这些变量的取值通常是整数,表示具体的计数结果。
类型 | 子类型 | 示例 | 描述 |
---|---|---|---|
分类型变量 | 有序分类变量 | 尿糖化验结果(-、±、+、++、+++);疗效(治愈、显效、好转、无效) | 各类别之间存在顺序关系 |
无序分类变量 | 性别(男、女);药物反应(阴性、阳性);血型(O、A、B、AB) | 各类别之间无顺序关系 | |
数值型变量 | 连续型变量 | 身高、体重、血压 | 变量在一定区间内可以取任意值 |
离散型变量 | 脉搏、白细胞计数 | 变量取值为有限个或可数的离散数值 |
二、R的数据结构
1、向量(Vector)
向量是R语言中最基础的数据结构,几乎所有其他数据结构都是由向量构成的。向量可以包含数值、字符、逻辑值、复数等类型的数据。
.......后面部分请看原文
欢迎订阅我们专栏,深度系统地学习R语言。
为帮助大家更出色地掌握临床统计、数据挖掘以及人工智能建模的入门知识和应用,由于众多同学在计算机编程上经验欠缺,特此开设《R 语言与数据科学的终极指南》专栏。该专栏每周至少会定期更新三篇,直到整个专栏更新完成。每篇文章都在 5000 字以上,质量平均分高达 94 分。要提醒大家的是,每结束一个章节,专栏的优惠力度就会减小,当下正是订阅的最佳优惠时段,诚邀各位积极订阅!
专栏《R 语言与数据科学的终极指南》链接:https://blog.csdn.net/2301_79425796/category_12729892.html?spm=1001.2014.3001.5482