数学建模之数据分析【三】:数据属性(定性和定量)


当我们谈论数据挖掘时,通常是指从大量数据中提取有价值的知识。为了深入理解这些数据,我们需要探讨数据对象、数据属性以及这些属性的类型。数据分析不仅仅是分析数据,还包括发现数据之间的潜在关系。

数据对象是数据库的核心组成部分,代表着各种实体。可以把数据对象视作一个实体的属性集合。例如,销售数据对象可以表示客户、销售记录或购买详情。当这些数据对象在数据库中被组织和列出时,我们称之为数据元组。

一、什么是数据属性

  • 数据属性是指描述数据集中各个数据对象的特定特征或属性。
  • 这些属性提供有关对象的有意义的信息,并用于分析、分类或操作数据。
  • 理解和分析数据属性是统计、机器学习和数据分析等各个领域的基础,因为它们构成了从数据中获取见解和做出明智决策的基础。
  • 在预测模型中,属性充当影响结果的预测因子。在描述性模型中,属性构成了正在检查其固有模式或相关性的信息片段。

可以这样定义,用于描述给定对象的一组属性称为属性向量或特征向量。数据属性的示例包括数值(例如,年龄、身高)、分类标签(例如,颜色、类型)、文本描述(例如,名称、描述)或数据对象的任何其他可测量或定性方面。

二、属性类型

数据预处理的初始阶段,涉及将属性分类为不同类型,为后续数据处理步骤奠定基础。属性大致可以分为两种主要类型:

  • 定性(标称 (N)、序数 (O)、二进制 (B))。
  • 定量(数值、离散、连续)
    用表格表示定性和定量数据的分类:
数据类型子类型细分
定性数据名义数据
有序数据
二元数据对称
非对称
定量数据数值数据
离散数据
连续数据

2.1定性属性

2.1.1 标称属性

与名称相关的名义属性是指分类数据,其值代表不同的类别或标签,但这些类别之间没有固有的顺序或排名。这些属性通常用于表示与对象、实体或概念相关的名称或标签。

属性
颜色黑色、棕色、白色
分类数据讲师、教授、副教授

2.1.2 二元属性

二元属性是一种定性属性,其中数据只能呈现两个不同的值或状态。这些属性通常用于表示数据集中是/否、存在/不存在或真/假条件。它们对于表示只有两种可能结果的分类数据特别有用。例如,在医学研究中,二元属性可以表示患者是否受到特定状况的影响。

  • 对称: 在对称属性中,值或状态都被认为同等重要或可互换。 例如,在具有值“男性”和“女性”的属性“性别”中,这两个值都不具有优先级,并且出于分析目的,它们被视为同等重要。
属性
性别男性,女性
  • 非对称:非对称属性表示两个值或状态的重要性不相等或不可互换。 例如,在值为“Pass”和“Fail”的属性“Result”中,状态的重要性不相等;在某些情况下,通过可能比不及格更重要,例如学术评分或认证考试。
属性
是否检测到癌症是,否
结果通过,未通过
  • 序数属性:序数属性是一种定性属性,其中值具有有意义的顺序或排名,但值之间的大小没有得到精确量化。换言之,虽然值的顺序表明了它们的相对重要性或优先级,但它们之间的数值差异不是标准化的或已知的。例如:
属性
等级A, B, C, D, E, F
基本薪资等级16, 17, 18

5.2 定量属性

5.2.1 数值

数值属性是定量的,因为它是一个可测量的量,以整数或实际值表示。数值属性有 2 种类型:间隔属性和比率缩放属性。

  • 区间尺度属性的值之间的差异是可解释的,但这些数值属性没有正确的参考点,或者我们称之为零点。数据可以在区间尺度上进行加法和减法,但不能进行乘法或除法。以摄氏度为例,如果某一天的温度是另一天的两倍,我们不能说这一天的温度是另一天天气的两倍。
  • 比率缩放属性是具有固定零点的数值属性。如果测量是比率缩放的,我们可以将一个值说为另一个值的倍数(或比率)。这些值是有序的,我们还可以计算值之间的差值,可以给出平均值、中位数、众数、分位数范围和分数汇总。

5.2.2 离散

离散数据是指可以采用特定、独立值的信息,而不是连续的范围。这些值通常是不同的,彼此独立,它们本质上可以是数字型,也可以是分类型。

属性
ZIP 代码301701,110040

5.2.3 连续

与离散数据不同,连续数据可以在给定范围内呈现无限数量的可能值。它的特点是能够在指定的间隔内假设任何值,通常包括小数或小数值。

属性
高度5,4,6.2, …etc
重量50, 33…etc

六、什么是目标属性?

标属性,也称为目标变量或响应变量,是数据集中的特定属性或列,表示监督学习问题中的结果或预测目标。在监督学习中,目标通常是根据其他属性的值(称为预测变量或特征)预测或建模目标属性的值。

例如,在房价数据集中,目标属性可能是房屋的销售价格,而预测变量可能包括卧室数量、平方英尺和位置等属性。目标属性是模型旨在根据输入特征预测或估计的内容。

七、常见问题

7.1 属性的数据类型是什么?

属性的数据类型是指描述它们在数据集中可以采用的值的性质的类别,包括定性类型(如名义和顺序)和定量类型(如离散和连续)。

7.2 名义属性和序数属性有什么区别?

名义属性表示没有任何固有顺序或排名的类别,而序数属性在值之间具有有意义的序列或排名,但值之间的大小并不精确已知。

7.3 离散属性和连续属性有何不同?

离散属性表示可计数值或整数,而连续属性可以采用范围内的任何值,并且通常与测量值相关联。

  • 21
    点赞
  • 18
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

清上尘

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值