数据的属性
数据对象
➢ 数据集由数据对象组成。一个数据对象代表一个实体。
例如:
➢ 销售数据库: 顾客、 商品、销售
➢ 医疗数据库: 患者、医生、诊断治疗
➢ 选课数据库: 学生、教师、课程
➢ 数据对象又称为样本、实例、数据点、对象或元组。
➢ 数据对象用属性描述。数据表的行对应数据对象; 列对应属性
属性
➢ 属性(特征,变量)是一个数据字段,表示数据对象的一个特征。
例如:客户编号、姓名、地址等
商品编号、商品名、价格、种类等
属性类型
➢ 标称属性(nominal)
➢ 二元属性(binary)
➢ 序数属性(ordinal)
➢ 数值属性(numeric)
➢ 区间标度属性(interval-scaled)
➢ 比率标度属性(ratio-scaled)
➢ 标称属性(nominal attribute):类别,状态或事物的名字
➢每个值代表某种类别、编码或状态,这些值不必具有有意义的序,可以看做是枚举的
例如:头发颜色= {赤褐色,黑色,金色,棕色,褐色,灰色,白色,红色}
也可以用数值表示这些符号或名称,但并不定量地使用这些数。
例如: 婚姻状况,职业,ID号,邮政编码,可以用0表示未婚、1表示已婚
➢ 二元属性(binary attribute):布尔属性,是一种标称属性,只有两个状态:0或1。
➢ 对称的(symmetric): 两种状态具有同等价值,且具有相同的权重。
例如:性别
非对称的(asymmetric): 其状态的结果不是同样重要。
例如:体检结果(阴性和阳性),惯例:重要的结果用1编码(如,HIV阳性)。
➢ 序数属性(ordinal attribute),其可能的值之间具有有意义的序或者秩评定(ranking),但是相继值之间的差是未知的。
例如:尺寸={小,中,大},军衔,职称
➢ 序数属性可用于主观质量评估
例如:顾客对客服的满意度调查。0-很不满意;1-不太满意;2-基本满意;3-满意;4-非常满意
➢ 数值属性(numeric attribute):定量度量,用整数或实数值表示
➢ 区间标度(interval-scaled)属性:使用相等的单位尺度度量。值有序,可以评估值之间的差,不能评估倍数。没有绝对的零点。
例如:日期,摄氏温度,华氏温度
➢ 比率标度(ratio-scaled)属性:具有固定零点的数值属性。值有序,可以评估值之间的差,也可以说一个值是另一个的倍数。
例如:开式温标(K),重量,高度,速度
离散属性VS连续属性
➢ 离散属性(discrete Attribute):具有有限或者无限可数个值。有时,表示为整型量。
例如:邮编、职业或文库中的字集二进制属性是离散属性的一个特例
➢ 连续属性(Continuous Attribute):属性值为实数,一般用浮点变量表示。
例如,温度,高度或重量,实际上,真实值只能使用一个有限的数字来测量和表示。
数据的基本统计描述
– 目的
– 数据的基本统计描述
• 更好地识别数据的性质,把握数据全貌。
• 中心趋势度量、数据分散度量、数据的图形表示
– 中心趋势度量
• 均值、加权算数均值、中位数、众数、中列数
– 数据分散度量
• 极差、分位数和四分位数、方差和标准差
– 数据的图形显示
• 箱图、饼图、频率直方图、散点图
中心趋势度量
– 均值(Mean)
– 截尾均值
– 加权算数平均数(Weighted Mean)
– 中位数(Median):正中间的值
• 如果值有奇数个,取中间值,否则取中间两个数的平均值
• 有序数据值的中间值
• 如果观察值有偶数个,通常取最中间的两个数值的平均数作为中位数。
– 分组数据中位数(Grouped Median)
– 分组数据中位数
– 众数(Mode):数据中出现最频繁的值
– 中列数(Midrange):数据集中最大值和最小值的算术平均值
数据分散度量
– 极差(又称全距,Range):是集合中最大值与最小值之间的差距,即最大值减最小值后所得数据。
– 分位数(Quantile):取自数据分布的每隔一定间隔上的点,把数据划分成基本上大小相等的连贯集合。
– 四分位数(Quantile):把数据分布划分成4个相等的部分,使得每部分表示数据分布的四分之一。这3个数据点称为四分位数。
– 盒图(又称箱线图,Box-plot),是一种用来描述数据分布的统计图形,可以表现观测数据的中位数、四分位数和极值等描述性统计量。
– 饼图(又称圆形图或饼形图,Pie Graph),通常用来表示整体的构成部分及各部分之间的比例关系。饼图显示一个数据系列中各项的大小与各项总和的比例关系。
数据的相似性与相异性
− 相似性(Similarity)
• 两个对象相似程度的数量表示
• 数值越高表明相似性越大
• 通常取值范围为[0,1]
− 相异性(Dissimilarity)(例如距离)
• 两个对象不相似程度的数量表示
• 数值越低表明相似性越大
• 相异性的最小值通常为0
• 相异性的最大值(上限)是不同的
− 邻近性(Proximity):相似性和相异性都称为邻近性
4. 数值属性的相异性
− 欧几里得距离和曼哈顿距离都满足如下数学性质:
①非负性:𝑑(𝑖,𝑗) ≥ 0:距离是一个非负的数值。
②同一性:𝑑(𝑖, 𝑖)= 0:对象到自身的距离为0。
③三角不等式:𝑑(𝑖,𝑗) ≤ 𝑑 (𝑖, 𝑘) + 𝑑(𝑘,𝑗):从对象i到对象j的直接距离不会大于途经任何其他对象k的距离
− 切比雪夫距离(Chebyshev Distance ):又称上确界距离,定义两个对象之间的上确界距离为其各坐标数值差的最大值。
5. 序数属性的邻近性度量
− 序数属性可以通过把数值属性的值域划分成有限个类别,对数值属性离散化得到。
− 相异性:
假设f是用于描述n个对象的序数属性,关于f的相异性计算步骤如下:
− 余弦相似性(又称余弦相似度,Cosine Similarity):是基于向量的,它利用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小。