系列一:认识数据

前言

旨在对数据挖掘有个系统的认识,这部分仅仅是对于认识数据

1 认识数据

1.1 数得来源

数据得来源基本有:数据库、数据仓库、事务数据等

1.2 数据得属性划分

对于数据的属性划分从以下两个方法进行划分:
一是离散得属性:
1.2.1 二元属性

即布尔属性(下分对称得二元属性与不对称得二元属性):
(1)对称得二元属性,eg——抛硬币得正反面
(2)不对称得二元属性,eg——癌症得阳性1和阴性0

1.2.2 多元属性

即对于二元属性的进一步加强,由二元变多元(下分标称属性和序列属性):
(1) 标称属性:该划分在同一水平上,多者间没有关系—— eg:头发的黑色、白色、黄色等
(2) 序数属性:该划分在统一水平上,多者间有关系 ——eg:一般、好、优秀等

对于标称属性和序列属性得区分
同:两者都在同一水平维度
异:标称属性间没有关系,序数属性间有关系

二是连续得属性:

1.3 数据得描述性统计

1.3.1 中心趋势怎么样?

利用均值、中位数、众数

1.3.2 数据的分散程度?

主要利用箱子图

1.3.3 度量数据相关性?
强调(越大距离越远):
(1)这里的相关性是指——样本(行)的相关性分析
(2)协方差矩阵也是对应于样本(行)的
(3)对比属性(列)的相关性分析是用在PCA降维中

1)对于二元属相异性求解
对于样本i和样本j相异性求解为:


在这里插入图片描述
b 非对称性: (1的状态更重要) 就像病例化验的阳性1和阴性0

2)对于多元的相异性求解

举例:

上述红色框中的相异性为

在这里插入图片描述


在这里插入图片描述

1.4 对于该数据得使用

对于该数据得使用从以下两个方法进行划分:
一是对于描述性类型:

即通过数据描述特征:
(1)类/概念描述:特征化与区分
(2)挖掘频繁模式、关联和相关性

二是对于预测性类型

用于预测分析的分类和回归

总结

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值