《数据挖掘概念与技术》书记2

该博客主要介绍了数据挖掘中数据的基本概念,包括数据对象、属性类型、数据统计描述和数据的相似性度量。讨论了数据对象如何代表实体,属性的离散和连续类型,以及如何通过中心趋势度量、数据散布和可视化方法来理解和分析数据。此外,还涉及了不同属性类型的邻近性度量,如标称、二元、数值和序数属性,并提到了余弦相似性在文本相似性计算中的应用。
摘要由CSDN通过智能技术生成

认识数据

目标:熟悉数据

将解决什么问题?

  • 数据由什么类型的属性或字段组成?
  • 每个属性具有何种类型的数据值?
  • 哪些属性是离散的,哪些是连续的?
  • 数据看上去如何?
  • 值如何分布?
  • 有什么方法可以可视化地观察数据?
  • 是否可以看出离群点?
  • 可以度量某些数据对象与其他数据对象之间的相似性?

数据对象与属性类型

数据对象

数据集由数据对象组成,一个数据对象代表一个实体。比如在销售数据库中,对象可以是顾客、商品和销售。

通常又称样本、实例、数据点,如果存放在数据库中,则成为数据元组。

属性类型

属性,表示数据对象的一个特征。“属性、维、特征和变量”都可称为属性。

给定属性的观测值称作观测。一个属性的数据分布称为单变量,以此类推。

属性类型 特点 中心趋势度量观察指标 举例
标称属性 值代表类别、编码或状态;分类的;不必具有意义;枚举值;可以是数值 使该属性最常出现的值,众数 职业、头发颜色等
二元属性 布尔属性,只有两个取值。包括对称与非对称,即状态是否具有同等价值并携带相同的权重 - 对称:性别;非对称:病毒化验结果(阴阳性)
序数属性 其可能的值之间具有有意义的序或秩,但值之间的差是未知的,可以是数值 众数、中位数 小中大;成绩A,B,C;军阶
数值属性 定量,分为区间标度和比率标度。 均值、中位数、众数 区间标度:温度;比率标度:收入水平

离散属性和连续属性

与以上类型并不互斥。离散属性具有有限或无限可数个值,可以用或不用整数表示。

连续属性通常与数值属性可以互换使用。但在实践中,连续属性一般用浮点变量表示。

数据的基本统计描述

  • 中心趋势度量。度量数据分布的中部或中心位置。给定一个属性,它的值大部分落在何处? 包括均值、中位数、众数和中列数。
  • 数据的散布。*数据如何分散?*包括极差、四分位数、四分位数极差、五数概况和盒图,方差和标准差。对于识别离群点,也是有用的。
  • 可视化数据。分位数图、分位数-分位数图、直方图和散点图。
中心趋势度量

使用python的numpy库

import numpy as np
from scipy import stats
a = np.arange(10,50,10).reshape(-1,1)
# a = [10,20,30,40]
度量 优点 缺点 实现 针对数据类型 优化方法
均值(加权) 描述数据集的最有用的单个量 对极端值(离群点)很敏感 np.mean(a) 任何数值 截尾均值
中位数 将数据较高的一半与较低的一半分开,离群点不会影响该值 对于大数据量,计算开销大 np.median(a) 倾斜数据 将数值转为中位数区间
众数 对于定性和定量属性均可适用 - stats.mode(a)[0]_[0] - -
中列数 数据集中最大值和最小值的平均值 易受极端值影响 [np.max(a)+np.min(a)]/2 -

在具有完全对称的数据分布的单峰频率曲线中,均值、中位数和众数都是相同的中心点。

正倾斜:众数出现在小于中位数的值上;负倾斜

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值