使用python编程数学建模-数据模块理论数据相似性常用基础指标(课程3)

最新推荐文章于 2024-04-23 10:48:57 发布

数模竞赛Paid answer

最新推荐文章于 2024-04-23 10:48:57 发布

阅读量1k

点赞数 2

分类专栏：数据分析笔记 python数据处理文章标签： python 开发语言算法

本文链接：https://blog.csdn.net/weixin_43292788/article/details/126547713

版权

笔记同时被 3 个专栏收录

369 篇文章 55 订阅

订阅专栏

数据分析

176 篇文章 14 订阅

订阅专栏

python数据处理

18 篇文章 3 订阅

订阅专栏

数据的属性

数据对象

➢ 数据集由数据对象组成。一个数据对象代表一个实体。
例如：
➢ 销售数据库: 顾客、商品、销售
➢ 医疗数据库: 患者、医生、诊断治疗
➢ 选课数据库: 学生、教师、课程
➢ 数据对象又称为样本、实例、数据点、对象或元组。
➢ 数据对象用属性描述。数据表的行对应数据对象; 列对应属性

属性

➢ 属性(特征，变量)是一个数据字段，表示数据对象的一个特征。
例如：客户编号、姓名、地址等
商品编号、商品名、价格、种类等

属性类型

➢ 标称属性(nominal)
➢ 二元属性(binary)
➢ 序数属性(ordinal)
➢ 数值属性(numeric)
➢ 区间标度属性(interval-scaled)
➢ 比率标度属性(ratio-scaled)
➢ 标称属性(nominal attribute)：类别，状态或事物的名字
➢每个值代表某种类别、编码或状态，这些值不必具有有意义的序，可以看做是枚举的
例如：头发颜色= {赤褐色，黑色，金色，棕色，褐色，灰色，白色，红色}
也可以用数值表示这些符号或名称，但并不定量地使用这些数。
例如：婚姻状况，职业，ID号，邮政编码，可以用0表示未婚、1表示已婚
➢ 二元属性(binary attribute)：布尔属性，是一种标称属性，只有两个状态：0或1。
➢ 对称的(symmetric): 两种状态具有同等价值，且具有相同的权重。
例如：性别
非对称的(asymmetric): 其状态的结果不是同样重要。
例如：体检结果（阴性和阳性），惯例：重要的结果用1编码（如，HIV阳性）。
➢ 序数属性(ordinal attribute)，其可能的值之间具有有意义的序或者秩评定(ranking)，但是相继值之间的差是未知的。
例如：尺寸={小，中，大}，军衔，职称
➢ 序数属性可用于主观质量评估
例如：顾客对客服的满意度调查。0-很不满意；1-不太满意；2-基本满意；3-满意；4-非常满意
➢ 数值属性(numeric attribute）:定量度量，用整数或实数值表示
➢ 区间标度(interval-scaled)属性：使用相等的单位尺度度量。值有序，可以评估值之间的差，不能评估倍数。没有绝对的零点。
例如：日期，摄氏温度，华氏温度
➢ 比率标度(ratio-scaled)属性：具有固定零点的数值属性。值有序，可以评估值之间的差，也可以说一个值是另一个的倍数。
例如：开式温标(K)，重量，高度，速度

离散属性VS连续属性

➢ 离散属性(discrete Attribute)：具有有限或者无限可数个值。有时，表示为整型量。
例如：邮编、职业或文库中的字集二进制属性是离散属性的一个特例
➢ 连续属性(Continuous Attribute)：属性值为实数，一般用浮点变量表示。
例如，温度，高度或重量，实际上，真实值只能使用一个有限的数字来测量和表示。

数据的基本统计描述

– 目的
– 数据的基本统计描述
• 更好地识别数据的性质，把握数据全貌。
• 中心趋势度量、数据分散度量、数据的图形表示
– 中心趋势度量
• 均值、加权算数均值、中位数、众数、中列数
– 数据分散度量
• 极差、分位数和四分位数、方差和标准差
– 数据的图形显示
• 箱图、饼图、频率直方图、散点图

中心趋势度量

– 均值（Mean）
在这里插入图片描述
– 截尾均值
– 加权算数平均数（Weighted Mean）

– 中位数(Median)：正中间的值
• 如果值有奇数个，取中间值，否则取中间两个数的平均值
• 有序数据值的中间值
• 如果观察值有偶数个，通常取最中间的两个数值的平均数作为中位数。
在这里插入图片描述
– 分组数据中位数(Grouped Median)

– 分组数据中位数

– 众数(Mode)：数据中出现最频繁的值

在这里插入图片描述
– 中列数(Midrange)：数据集中最大值和最小值的算术平均值

数据分散度量

– 极差（又称全距，Range）：是集合中最大值与最小值之间的差距，即最大值减最小值后所得数据。

在这里插入图片描述
– 分位数（Quantile）：取自数据分布的每隔一定间隔上的点，把数据划分成基本上大小相等的连贯集合。

– 四分位数（Quantile）：把数据分布划分成4个相等的部分，使得每部分表示数据分布的四分之一。这3个数据点称为四分位数。
在这里插入图片描述

– 盒图（又称箱线图，Box-plot)，是一种用来描述数据分布的统计图形，可以表现观测数据的中位数、四分位数和极值等描述性统计量。

– 饼图（又称圆形图或饼形图，Pie Graph），通常用来表示整体的构成部分及各部分之间的比例关系。饼图显示一个数据系列中各项的大小与各项总和的比例关系。

在这里插入图片描述

数据的相似性与相异性

− 相似性(Similarity)
• 两个对象相似程度的数量表示
• 数值越高表明相似性越大
• 通常取值范围为[0,1]
− 相异性(Dissimilarity)(例如距离)
• 两个对象不相似程度的数量表示
• 数值越低表明相似性越大
• 相异性的最小值通常为0
• 相异性的最大值（上限）是不同的
− 邻近性(Proximity):相似性和相异性都称为邻近性

在这里插入图片描述

4. 数值属性的相异性
− 欧几里得距离和曼哈顿距离都满足如下数学性质：
①非负性：𝑑(𝑖,𝑗) ≥ 0：距离是一个非负的数值。
②同一性：𝑑(𝑖, 𝑖)= 0：对象到自身的距离为0。
③三角不等式：𝑑(𝑖,𝑗) ≤ 𝑑 (𝑖, 𝑘) + 𝑑(𝑘,𝑗)：从对象i到对象j的直接距离不会大于途经任何其他对象k的距离
在这里插入图片描述
− 切比雪夫距离（Chebyshev Distance ）：又称上确界距离，定义两个对象之间的上确界距离为其各坐标数值差的最大值。