下一节:探索数据https://blog.csdn.net/Carl_changxin/article/details/88533798
1、数据类型
1.1、属性和度量
1、属性和属性的测量标度
- 属性是对象的性质或特性
- 属性的测量标度是将数值或符号与对象的属性相关联的规则或函数
2、按性质对属性分类
- 通常将属性的类型称为测量标度的类型
- 属性通常会具有数值的一些性质,如相异性、序、加法、乘法,有了这些性质,可以定义四种属性类型,分别是标称、序数、区间和比率
- 标称和序数属性统称分类的或定性的属性,定性属性不具有数的大部分性质;区间和比率属性统称定量的或数值的属性。
3、按属性可能取值的个数对属性分类
- 离散属性具有有限个或无限个可数值
- 联系属性是取实数值的属性
4、非对称的属性
- 对于某数据集,属性取值大部分都是0,一般我们关注非零值会更有意义。即只有非零值才重要的属性称非对称属性。
1.2、数据集的类型
1、数据集的一般特性
- 维度:是指数据集中的对象具有的属性数目。
- 稀疏性:稀疏数据一般更容易处理,因为通常只对非零值处理,而稀疏数据的非零值较少。
- 分辨率:在不同的分辨率下,数据的性质可能会不同。
2、数据集的分类
(1)记录数据:每个记录(即数据对象)包含固定的数据字段(即属性)集;记录数据有如下两种特殊形式
- 事务数据或购物篮数据:是一种特殊类型的记录数据,每个事务(即记录)涉及一个项的集合。像购物车数据,商品是项
- 数据矩阵:所有的数据对象都具有相同的数值属性集,则每个数据对象都能看作一个多维向量,每个维代表对象的一个属性。
(2)基于图形的数据:图形可以捕获数据对象之间的联系;数据对象本身也可以用图形表示
(3)有序数据:涉及时间或空间序的联系
2、数据质量
2.1、影响数据质量的因素
1、测量和数据收集会出现的问题
- 测量误差
- 数据收集错误
2、噪声和离群点
- 噪声是测量误差的随机部分
- 离群点(异常对象)是具有不同于数据集中其它大部分数据对象的特征的数据对象
3、遗漏值、重复值、不一致的值
2.2、数据预处理
1、聚集
- 将两个或多个对象合并成一个对象
2、抽样
- 如果样本是具有代表性的,则使用样本与使用整个数据集的效果是几乎一样的
3、维规约
- 通过创建新属性,将一些就属性合并在一起降低数据集的维度
4、特征子集选择
- 降低维度的另一个方法是使用特征(属性)的一个子集;
- 三种标准的特征选择方法
- 嵌入方法:在数据挖掘算法运行期间,算法本身决定使用哪些属性和忽略哪些属性
- 过滤方法:在数据挖掘算法运行前进行特征选择;一般选择相关度尽可能低的属性作为子集
- 包装方法:测试一些子集,选择经果数据挖掘算法可以获得最好结果的子集
- 特征加权是一种保留或删除特征的可供选择的方法;特征越重要,所赋予的权值越大
5、特征创建
- 可以通过原来的属性创建新的属性集
- 三种创建新属性的方法
- 特征提取:由原始数据创建新的特征集;
- 映射数据到新的空间:通过某种变换,将数据变换成另一种视角下,可能更易分析
- 特征构造:原始数据集的特征不适合数据挖掘算法,可以构造新的特征可能会更好
6、离散化和二元化
- 二元化即将连续属性或离散属性变换成一个或多个二元属性(如:0或1)
- 连续属性离散化
- 非监督离散化:如:将属性的值域划分成相同宽度的区间,区间个数自定义(等宽方法);
- 监督离散化:如:基于熵的方法
7、变量变换
- 变量变换是指用于变量(属性)的所有值的变换。即变换作用于每个对象的变量值(属性值)
- 两种变量变换类型
- 简单函数变换
- 规范化(标准化)
3、相似性和相异性的度量
3.1、相似度和相异度
1、相似度和相异度
- 相似度是两个对象的相似程度的数值度量;取值一般在[0,1]
- 相关性是一种相似性度量,在[-1,1]上取值
- 相异度是两个对象差异程度的数值度量;取值一般在[0,1]或0和正无穷之间
- 距离是一种相异性度量
- 用邻近度表示相似性或相异性
2、变换
- 用变换将相似度转换成相异度;或将相异度转换成相似度
3、单个属性的对象之间的邻近度
- 当这个属性的类型是标称类型的
- 当这个属性的类型是序数类型的
- 当这个属性的类型是区间或比率类型的
- d和s分别表示相异度和相似度
4、数据对象之间的相异度
- 距离是具有特定性质的相异度
- 闵可夫斯基距离的三个例子
- 欧几里得距离
- 曼哈顿距离
- 上确界距离
- 距离是一种度量,度量满足三个性质,但许多相异度不满足一个或多个度量性质
- 非负性
- 对称性
- 三角不等式
5、数据对象之间的相似度
- 相似度,通常不满足三角不等式,但对称性和非负性通常成立
3.2、邻近性度量的例子
1、二元数据的相似性度量
- 两个仅包含二元属性的对象之间的相似性度量也称为相似系数,通常在[0,1]之间取值
- SMC称为简单匹配系数,可以在一个仅包含是非的测验中用来发现回答问题相似的学生
- Jaccard系数,是处理仅包含非对称的二元属性的对象
2、余弦相似度的引出---余弦度量
- 余弦相似度是文档相似性最常用的度量之一;每个文档都是稀疏的,因为它具有较少的非零属性;要分析两个文档的相似性,需要忽略0-0匹配,即只考虑这两个文档中共同存在的词,不考虑它们都没有的词;
- 余弦相似度和Jaccard度量一样都忽略0-0匹配,且必须能够处理非二元向量
- 广义Jaccard系数也称Tanimoto系数,也可以用于文档数据,并在二元属性情况下规约成Jaccard系数
3、相关性的引出---相关性度量
- 两个具有二元变量(属性)或连续变量的数据对象之间的相关性是对象属性之间线性连续的度量
- 皮尔森相关系数
4、Bregman散度的引出
- Bregman散度可以作为相异性函数,是一种失真函数(损失函数)
- 损失函数的目的是计算用x近似y导致的失真或损失值
3.3、邻近度计算问题
- 属性具有不同尺度或相关时如何处理:Mahalanobis距离可以解决,当属性相关,具有不同的值域,并且数据分布近似于高斯分布时的两个对象的邻近度计算问题。
- 当对象包含不同类型的属性如何计算对象之间的邻近度:通过如下算法解决
- 当属性具有不同的权重时,如何处理邻近度的计算:通过如下公式解决
3.4、选取正确的邻近性度量
- 对于许多稠密的、连续的数据,通常使用距离度量,如欧几里得距离等。
- 对于稀疏数据,通常包含非对称的属性,通常使用忽略0-0匹配的相似性度量。即相似度依赖于它们共有的性质数目,而不是都没有的性质数目。更特殊的,对于稀疏的、非对称的数据,大部分对象都只具有少量被属性描述的性质,因此如果考虑它们都不具有的性质时,它们都高度相似。可以使用余弦、Jaccard和广义Jaccard度量对这类数据处理。
- 相关度的使用:比如时间序列代表不同的量(如,血压和氧消耗量),通常希望确定时间序列是否具有相同的形状,这时采用相关度较好。当时间序列代表的量值是重要的(如,销售额),则可以使用欧几里得距离。