数据挖掘 (二) 认识数据

一.数据对象与属性类型:

数据库中的行对应数据对象,而列对应于属性。

1.属性定义:

一个数据字段,表示数据对象的一个特征。

标称、二元和序数属性都是定性的,即它们描述对象的特征。而不给出实际大小或数量

2.标称属性:

标称属性的值是一些符号或事物的名称,每个值代表某种类别、编码或状态,看做是分类的

比如头发颜色hair_hair和婚姻状况marital_status

3.二元属性(布尔属性):

是一种标称属性,只有两个类别或状态: 0或1

4.序数属性:

是一种属性,其可能的值之间具有有意义的序或秩评定,但是相继之之间的差是未知的;对于记录不能客观度量的主观质量评估是很有用的,通常用于等级评定调查

5.数值属性:

定量的,即是可度量的量,用整数或实数值表示,数值属性分为区间标度的或比率标度的

(1)区间标度属性:

用相等的单位尺度度量,允许我们比较和定量评估值之间的差

(2)比率标度属性:

具有固定零点的数值属性,可以说一个值是另一个的倍数,,也能计算值之间的差

6.离散属性与连续属性:

(1)离散属性:

具有有限或无限可数个值

(2)连续属性:

一般用浮点变量来表示

二.数据的基本统计描述:

1.中心趋势度量:均值、中位数和众数

(1)均值: 加权算数平均值 截尾均值

(2)中位数和众数:中列数

2.度量数据散步:极差、四分位数、方差、标准差和四分位数极差

(1)极差: max-min

(2)分位数:取自数据分布的每隔一定间隔上的点,把数据划分成基本上大小相等的连贯集合

2-分位数把数据划分为高低两半,对应于中位数;

4-分位数是3个数据点,把数据划分为4个相等的部分

(3)四分位数极差IQR: IQR=Q3-Q1 Q3和Q1分别为第三个和第一个四分位数

(4)五数概括:中位数Q2、四分位数Q1和Q3、最小和最大观测值

(5)盒图:体现了五数概括,可以用来比较若干个可比较的数据集

3.数据的基本统计描述的图形显示:

(1)分位数图: 观察单变量数据分布的简单有效方法

(2)分位数-分位数图: 绘制一个单变量分布的分位数。可以使用户观察从一个分布到另外一个分布是否有漂移

(3)直方图

(4)散点图:观察双变量数据有用方法,用于观察点簇和离群点或者考察相关联系的可能性(正相关或者负相关)

三.数据可视化:

1.基于像素的可视化技术:

在屏幕上创建m个窗口,每维一个,记录的m个维值映射到这些窗口中对应位置上的m个像素,像素的颜色反映对应的值

2.几何投影可视化技术:

帮助用户发现多维数据级的有趣投影,首要挑战解决在二维显示上可视化高维空间

散点图矩阵 平行坐标

3.基于图符的可视化技术:

使用少量图符表示多维数据值

(1)切尔诺夫脸

(2)人物线条画

4.层次可视化技术:

把所有维划分为子空间,这些子空间按层次可视化

例子:世界中的世界、树图

5.可视化复杂对象和关系:

标签云

四.度量数据的相似性和相异性:

1.数据矩阵(二模矩阵)与相异性矩阵(单模矩阵):

主要基于内存的聚类和最近邻算法(数据矩阵和相异性矩阵)

2.标称属性的邻近性度量:

两个对象i和j之间的相异性可以根据不匹配率来计算: d(i,j)=(p-m)/p

m是匹配的数目,p是刻画对象的属性总数

3.二元属性的邻近性度量:

对称的二元相异性和非对称的二元相异性

4.数值属性的相异性:闵可夫斯基距离

欧几里得距离、曼哈顿距离和闵可夫斯基距离

5.序数属性的邻近性度量

6.混合类型属性的相异性:

将所有属性类型一起啊处理,只做一次分析,将不同的属性组合在单个相异性矩阵中,把所有有意义的属性转换到共同的区间[0.0,1.0]

7.余弦相似性:

一种度量,用来比较文档或者针对给定的查询向量对文档排序,或针对给定的查询词向量对文档排序

  • 2
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值