前言
旨在对数据挖掘有个系统的认识,这部分仅仅是对于认识数据1 认识数据
1.1 数得来源
数据得来源基本有:数据库、数据仓库、事务数据等
1.2 数据得属性划分
对于数据的属性划分从以下两个方法进行划分:
一是离散得属性:
1.2.1 二元属性
即布尔属性(下分对称得二元属性与不对称得二元属性):
(1)对称得二元属性,eg——抛硬币得正反面
(2)不对称得二元属性,eg——癌症得阳性1和阴性0
1.2.2 多元属性
即对于二元属性的进一步加强,由二元变多元(下分标称属性和序列属性):
(1) 标称属性:该划分在同一水平上,多者间没有关系—— eg:头发的黑色、白色、黄色等
(2) 序数属性:该划分在统一水平上,多者间有关系 ——eg:一般、好、优秀等
对于标称属性和序列属性得区分
同:两者都在同一水平维度
异:标称属性间没有关系,序数属性间有关系
二是连续得属性:
1.3 数据得描述性统计
1.3.1 中心趋势怎么样?
利用均值、中位数、众数
1.3.2 数据的分散程度?
主要利用箱子图
1.3.3 度量数据相关性?
强调(越大距离越远):
(1)这里的相关性是指——样本(行)的相关性分析
(2)协方差矩阵也是对应于样本(行)的
(3)对比属性(列)的相关性分析是用在PCA降维中
1)对于二元属相异性求解
对于样本i和样本j相异性求解为:
2)对于多元的相异性求解
举例:
上述红色框中的相异性为
1.4 对于该数据得使用
对于该数据得使用从以下两个方法进行划分:
一是对于描述性类型:
即通过数据描述特征:
(1)类/概念描述:特征化与区分
(2)挖掘频繁模式、关联和相关性
二是对于预测性类型
用于预测分析的分类和回归