系列一：认识数据

最新推荐文章于 2023-03-29 13:53:19 发布

YJ语

最新推荐文章于 2023-03-29 13:53:19 发布

阅读量562

点赞数

分类专栏：数据挖掘文章标签：数据挖掘

本文链接：https://blog.csdn.net/The_dream1/article/details/111305044

版权

2 篇文章 0 订阅

订阅专栏

前言

旨在对数据挖掘有个系统的认识，这部分仅仅是对于认识数据

数据得来源基本有：数据库、数据仓库、事务数据等

对于数据的属性划分从以下两个方法进行划分：
一是离散得属性：
1.2.1 二元属性

即布尔属性（下分对称得二元属性与不对称得二元属性）：
（1）对称得二元属性，eg——抛硬币得正反面
（2）不对称得二元属性，eg——癌症得阳性1和阴性0

1.2.2 多元属性

即对于二元属性的进一步加强，由二元变多元（下分标称属性和序列属性）：
（1）标称属性：该划分在同一水平上，多者间没有关系—— eg：头发的黑色、白色、黄色等
（2）序数属性：该划分在统一水平上，多者间有关系 ——eg：一般、好、优秀等

对于标称属性和序列属性得区分
同：两者都在同一水平维度
异：标称属性间没有关系，序数属性间有关系

二是连续得属性：

利用均值、中位数、众数

主要利用箱子图

强调（越大距离越远）：
（1）这里的相关性是指——样本（行）的相关性分析
（2）协方差矩阵也是对应于样本（行）的
（3）对比属性（列）的相关性分析是用在PCA降维中

1）对于二元属相异性求解
对于样本i和样本j相异性求解为：

在这里插入图片描述
b 非对称性: (1的状态更重要) 就像病例化验的阳性1和阴性0

2）对于多元的相异性求解

举例：

上述红色框中的相异性为

在这里插入图片描述

对于该数据得使用从以下两个方法进行划分：
一是对于描述性类型：

即通过数据描述特征：
（1）类/概念描述：特征化与区分
（2）挖掘频繁模式、关联和相关性

二是对于预测性类型

用于预测分析的分类和回归

关注

专栏目录