数据对象、属性和相似性
数据对象
别名:样本、实例、数据点 或 对象
一般使用属性对应属性值来描述数据对象
哈士奇:傻、大、黑白、撕家
属性
一个数据字段,表示数据对象的一个特征。
别名:属性(DM)、维(数据仓库)、特征(ML)、变量
属性类型
属性 | 特点 | 备注 |
---|---|---|
标称 | 与名称相关,也被看作分类的 | 趋势度量:众数 |
二元 | 也叫bool属性,True / False | 对称与非对称(重要性) |
序数 | 有顺序的 | 趋势度量:众数,中位数。均值无意义 |
数值 | 区间标度属性和比率标度属性 | |
离散 | 有限或无限个值 | 可用数表示、也可用名称(:hair,eye) |
连续 | 实数表示。 | (不离散则连续) |
中心趋势度量:
- 均值
mean
- 中位数
median
- 众数
- 中列数
midrange= (max+min)/ 2
度量数据散布:
- 极差
range = max - min
- 四分位数
quartile
(分为四分之一) - 方差
variance
- 标准差
standard deviation
数据对象相似性、相异性
数据矩阵:
D
m
∗
n
D_{m*n}
Dm∗n: 对象–属性结构 ,
d
i
∗
j
d_{i*j}
di∗j:属性值。双模
相似 \ 异性矩阵: 对象–对象结构 ,
D
m
∗
m
D_{m*m}
Dm∗m ,
d
i
∗
j
d_{i*j}
di∗j:相似 \ 异性。单模
m
:m
个对象,n
:n
个属性
单模(一种实体)、双模(两种实体)
属性 | 相似性 | 相异性 | 其他 |
---|---|---|---|
标称 | m p \frac{m}{p} pm | p − m p \frac{p-m}{p} pp−m OR 1 - m p \frac{m}{p} pm | p:总数,m:匹配数目 |
二元 | 对称: q + t s u m \frac{q+t }{sum} sumq+t 、非对称:jaccard系数 | r + s s u m \frac{r+s}{sum} sumr+s OR 1 - q + t s u m \frac{q+t }{sum} sumq+t | 二元属性列联表(混淆矩阵)(见下表) |
数值(欧几里得距离) | d i j = ( x i 1 − x j 1 ) 2 + ( x i 2 − x j 2 ) 2 + . . . + ( x i n − x j n ) 2 d_{ i j} = \sqrt{(x_{i1}-x_{j1})^2+(x_{i2}-x_{j2})^2+... +(x_{in}-x_{jn})^2} dij=(xi1−xj1)2+(xi2−xj2)2+...+(xin−xjn)2 | ||
数值(曼哈顿距离) | d i j = a b s ( x i 1 − x j 1 ) + a b s ( x i 2 − x j 2 ) ) + . . . + a b s ( x i n − x j n ) d_{ i j} = abs(x_{i1}-x_{j1}) +abs(x_{i2}-x_{j2}))+... +abs(x_{in}-x_{jn}) dij=abs(xi1−xj1)+abs(xi2−xj2))+...+abs(xin−xjn) | ||
数值(明可夫斯基距离) | d i j = ( x i 1 − x j 1 ) 2 + ( x i 2 − x j 2 ) 2 + . . . + ( x i n − x j n ) 2 h d_{ i j} = \sqrt[h]{(x_{i1}-x_{j1})^2+(x_{i2}-x_{j2})^2+... +(x_{in}-x_{jn})^2} dij=h(xi1−xj1)2+(xi2−xj2)2+...+(xin−xjn)2 | 别称: L p L_p Lp范数 | |
数值(上确界距离) | d i j = lim n → ∞ ( ∑ f = 1 p ( a b s ( x i f − x j f ) ) h ) 1 h = m a x f p a b s ( x i f − x j f ) d_{ i j} = \lim_{n \to \infty}(\sum_{f=1}^p (abs(x_{if}-x_{jf}))^h )^{\frac{1}{h}} =max_f^pabs(x_{if}-x_{jf}) dij=limn→∞(∑f=1p(abs(xif−xjf))h)h1=maxfpabs(xif−xjf) | 别称: L m a x 、 L ∞ L_{max}、L_{\infty} Lmax、L∞范数 和 切比雪夫范数 | |
序数 |
Z
i
f
=
R
i
f
−
1
M
f
−
1
Z_{if} =\frac{R_{if}-1}{M_f-1}
Zif=Mf−1Rif−1 然后使用数值属性距离度量计算 Z i f Z_{if} Zif 作为第 i 个对象的 f 属性值 | M:有序状态数目 有序状态 State:1… M f M_f Mf R i f ∈ S t a t e R_{if}\in State Rif∈State Z i f Z_{if} Zif 为 R i f R_{if} Rif数据规格化后 | |
混合 | 方法1:按不同类型分组,对每种进行分析 | 标称、二元、序数、数值都有 | |
混合 | 方法2:一起处理 up = ∑ f = 1 N q i f ( f ) \sum_{f=1}^Nq_{if}^{(f)} ∑f=1Nqif(f) d i f ( f ) d_{if}^{(f)} dif(f) down = ∑ f = 1 N q i f ( f ) \sum_{f=1}^Nq_{if}^{(f)} ∑f=1Nqif(f) d i f = u p d o w n d_{if}=\frac{up}{down} dif=downup | 标称、二元、序数、数值都有 DM的Page50 | |
余弦 | Cos similarity | 一般用于比较文档 | |
余弦变种 | X ∗ Y X ∗ X + Y ∗ Y − X ∗ Y \frac{X*Y}{X*X+Y*Y-X*Y} X∗X+Y∗Y−X∗YX∗Y | Tanimoto系数\距离,常用于信息检索和生物学分类 |
Cos similarity = X ∗ Y ∣ ∣ X ∣ ∣ ∗ ∣ ∣ Y ∣ ∣ \frac{X*Y}{||X||*||Y||} ∣∣X∣∣∗∣∣Y∣∣X∗Y 余弦相似度公式
X 和 Y 是向量,||X|| 和 ||Y||是欧几里得范数
f
:属性f
二元属性列联表(混淆矩阵) | True | False | SUM |
---|---|---|---|
True | q | r | q+r |
False | s | t | s+t |
SUM | q+s | r+t | sum = q+r+s+t |