认识数据

数据对象与属性类型

数据集由数据对象组成,一个数据对象代表一个实体。

属性是一个数据字段,表示数据对象的一个特征

标称属性的值是一些符号或者事务的名称

二元属性是一种标称属性,只有两个类别或者状态:0或者1

序数属性可能的值之间具有有意义的序或者秩评定,但是相继值之间的差未知(如大中小)

数值属性

  • 区间标度属性:属性涌向等的单位尺度度量。
  • 比率标度属性:属性是具有固定零点的数值属性。

离散属性与连续属性

数据的基本统计描述

中心趋势度量:均值、中位数、众数

  • 均值
    x ˉ = ∑ i = 1 N x i N \bar{x} = \frac{\sum_{i=1}^{N}x_i}{N} xˉ=Ni=1Nxi
    加权算术均值或加权平均
    x ˉ = ∑ i = 1 N ω i x i ∑ i = 1 N ω i \bar{x} = \frac{\sum_{i=1}^{N}\omega_ix_i}{\sum_{i=1}^{N}\omega_i} xˉ=i=1Nωii=1Nωixi
  • 中位数
    m e d i a n = L 1 + ( N / 2 + ( ∑ f r e q ) l f r e q m e d i a n ) w i d t h median = L_1 + (\frac{N/2 + (\sum freq)_l}{freq_median})width median=L1+(freqmedianN/2+(freq)l)width
  • 众数

众数是出现最频繁的值, 一个、两个、三个众数的数据集合分别称为单峰的、双峰的、三峰的

  • 中列数:是数据集最大值和最小值得平均值

度量数据散步:极差、四分位数、方差、标准差和四分位极差

  • 极差是该集合最大与最小值得差
  • 四分位数如下图
    在这里插入图片描述

分位数是取自数据分布得每隔一定间隔得点,把数据分成基本上大小相等得连贯集合。第一个四分位数记作 Q 1 Q_1 Q1,第三个四分位数记作 Q 3 Q_3 Q3

  • 四分位极差 I R Q = Q 3 − Q 1 IRQ=Q_3 - Q_1 IRQ=Q3Q1
  • 五数概括由中位数( Q 2 Q_2 Q2)、四分位数 Q 1 和 Q 3 Q_1和Q_3 Q1Q3、最小和最大观测值组成,表现方式:盒图
  • 方差和标准差 σ 2 = 1 N ∑ i = 1 N ( x i − x ˉ ) 2 \sigma^2 = \frac{1}{N}\sum_{i=1}^{N}(x_i - \bar{x})^2 σ2=N1i=1N(xixˉ)2

数据基本统计描述得图形显示

  • 分位数图
    在这里插入图片描述
  • 分位数-分位数图
    -
  • 直方图
    -
  • 散点图与数据相关
    在这里插入图片描述

数据可视化

数据可视化是通过图形表示清晰有效地表达数据。

度量数据的相似性和相异性

数据矩阵与相异性矩阵

  • 数据矩阵:这种数据结构用关系表的形式或者 n ∗ p n*p np矩阵存放n个数据对象。
    在这里插入图片描述
    在这里插入图片描述
  • 相异性矩阵: 存放n个对象两两之间的邻近度。
    在这里插入图片描述

其中 d ( i , j ) d(i, j) d(i,j)是对象i和对象j之间的相异性或者“差别”的度量
相似性度量可以表示成相异性度量的函数。例如,对于标称数据: s i m ( i , j ) = 1 − d ( i , j ) sim(i, j) = 1 - d(i, j) sim(i,j)=1d(i,j)

标称属性得邻近性度量
在这里插入图片描述

m是匹配的数目(即i和j取值相同状态的属性数),而p是刻画对象的属性总数。

例子:
在这里插入图片描述
上表中我们只有test-1是标称属性。
在这里插入图片描述

二元属性得邻近性度量
在这里插入图片描述

  • 对称的二元相异性
    在这里插入图片描述
  • 非对称的二元相异性
    在这里插入图片描述

q是对象i和对象j都取1的属性数。

数值属性得相异性:闵可夫斯基距离

  • 欧几里得距离
    在这里插入图片描述
  • 曼哈顿距离
  • 在这里插入图片描述

在这里插入图片描述

  • 闵科夫斯基距离
    是欧几里得距离和曼哈段距离的推广
    在这里插入图片描述
  • 上确界距离(又称 L m a x L_{max} Lmax,和切比雪夫距离)
    是h趋向于无穷时闵科夫斯基距离的推广
    在这里插入图片描述

序数属性得邻近性度量
如何处理序数属性的邻近性度量,以表2.2为例, 分三步:

  • 第一步,把test-2的每个值替换成他的排位,则四个对象的排位分别是3、1、2、3
  • 第二步,通过将排位1、2、3分别映射成0.0、0.5、1.0来实现对排位的规格化
  • 第三步,使用欧几里得矩阵获得如下的相异性矩阵
    在这里插入图片描述

混合类型属性得相异性

在这里插入图片描述

对于表2.2,test-3的相异性矩阵为
在这里插入图片描述

如果计算三个属性的相异性矩阵,对于第三和第一个属性, d ( 3 , 1 ) = 1 ( 1 ) + 1 ( 0.5 ) + 1 ( 0.45 ) 3 = 0.65 d(3,1) = \frac{1(1) + 1(0.5) + 1(0.45)}{3} = 0.65 d(3,1)=31(1)+1(0.5)+1(0.45)=0.65,那么由三个属性所描述的数据得到的相异性矩阵如下:
在这里插入图片描述

余弦相似性
文档用数以千计的属性表示,每个记录文档中的一个特定词(如关键词)或短语的频度。每个文档都被一个所谓的词频向量表示,如下表
在这里插入图片描述

词频向量通常很长,并且是稀疏的(即,它们有很多零值),但我们关注的时两个文档确实共有的此,以及这种词出现的频率,忽略掉0匹配的数值数据度量,这时候就用到了余弦相似性
在这里插入图片描述
一个对于表2.5的例子
在这里插入图片描述
在这里插入图片描述

  • 4
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值