数据测量与相似性分析

最新推荐文章于 2024-03-23 22:36:55 发布

hgz_dm

最新推荐文章于 2024-03-23 22:36:55 发布

阅读量8.6k

点赞数 1

分类专栏：算法与模型文章标签：属性类型属性值测量相似性度量邻近度分析

本文链接：https://blog.csdn.net/huguozhiengr/article/details/83033465

版权

这篇文章中主要记录如何分析样本间相似性的内容，相似性分析在分类算法（如K最邻近分类）和聚类任务中会涉及到。相似性分析基于样本属性取值，因此对于样本属性类型及其取值的特征也有必要说明。

1.数据测量及属性分类

测量某个对象得到数据的过程实质上是描述该对象的属性（特征）、并将该属性映射到某个值上，在这些值上一般可以定义如下几种操作：

相异性、 $\neq$
序、 $\leq$ 、、 $\geqslant$
加减、
乘除 $\ast$ 、 $\div$

依据测量值能进行的操作类型，可以将属性分为：标称型(nominal)、序数型(ordinal)、区间型(interval)和比率型(ratio)，不同类型的定义及区别见下表

从属性取值个数方面，可以将属性分为：属性型(binary attribute)、离散型(discrete)、连续型(continuous)。取值为属性型时，其值只能为两个，如真/假、是/否、男/女、0/1等，这种取值的属性称为二元属性。标称型、序数型数据的含义比较直观，而对于区间型数据，就以日历日期为例说明，现有两个日期值2017(年)、2018(年)，二者之间的差值可以理解为间隔一年，但是二者间乘或除得到的值则毫无意义，这就是区间值的特征。对于比率型数据，以体重为例，100kg的人可以说是50kg的人体重的两倍，这是有现实直观意义的。有的数据类型可能兼具多种操作方法（如体重可以加减，也可以除），可能在属性类型分类上不那么明显，但需要强调的是：属性归类问题不重要，重要的是明确哪些操作是有意义的。

除了从以上几个方面对属性进行分类与定义外，还可以按属性取值对称与否来分类。非对称的属性其不同取值间权重不一致，例如艾滋病检验的结果可为阳性和阴性，但是显然我们更关注是否为阳性，该值对判断是否患艾滋病更为关键。对称的属性其取值权重就一致了，例如某路段一定时间内通过的车辆数。

2.样本相似性分析

样本相似性分析常用于分类、聚类任务中。相似性肯定要依据样本属性取值来分析的，这其中关键就在属性值的处理、相似性度量标准上。

2.1属性值的处理

2.1.1 二元化

在一些算法中（如发现关联模式的算法）要求数据的属性为二元属性，二元化处理就是将数据的属性从“多元”转化为“二元”的过程。二元化的过程为：假设属性取值有个，则将整数区间 $\left [0,m-1 \right ]$ 中的每个值唯一的赋予该属性的每个取值，如果该属性的取值是有序的，则赋值的过程也必须按顺序赋值，然后将这个值用二进制表示，共需要 $\left \lceil log_{2}m \right \rceil$ （结果向上取整）个二进制位。

二元化的过程是用多个二元属性来表示一个多元属性，例如一个具有5个取值的属性{awful，poor，ok，good，great}可以用3个二元属性 $x_{1}$ 、 $x_{2}$ 、 $x_{3}$ 表示

最低0.47元/天解锁文章

hgz_dm

关注

1
点赞
踩
27

收藏

觉得还不错? 一键收藏
0
评论
数据测量与相似性分析

这篇文章中主要记录如何分析样本间相似性的内容，相似性分析在分类算法（如K最邻近分类）和聚类任务中会涉及到。相似性分析基于样本属性取值，因此对于样本属性类型及其取值的特征也有必要说明。1.数据测量及属性分类测量某个对象得到数据的过程实质上是描述该对象的属性（特征）、并将该属性映射到某个值上，在这些值上一般可以定义如下几种操作：相异性、序 ...
复制链接

扫一扫

专栏目录