数据挖掘导论读书笔记

本文主要对相关系数做出介绍,了解各种相似性和相异性度量的方法,以及适用的场景。

一、 数据类型
 首先对数据的类型进行介绍:在统计学上,将数据分为定性和定量两种类型。定量数据表示事物的数量或者个数,用数值标度度量。例如:转账的金额1000/次,转账的笔数2次/月。定性数据是指的没有量的解释,它们只能分类,例如:性别,职业,学历等。因为用来描述和分析数据的合适的统计工具依赖于数据类型的,因此,区别定量数据和定性数据很重要。数据类型的描述
  定性数据的图形描述方法常用的是条形图和饼图。条形图给出相应的每一类的频数(或者相对频率),长方形的高度或者长度与类的频数(相对频率)成比例。饼图将一个圆分成几份,每一份代表一个类,每份中心角与类相对频率成比例。帕累托图将定性变量的类按照高度从左到右进行降序排列条形图。帕累托图是质量控制中的一种重要的图形,有助于辨别最严重的问题区域。
  定量数据的图形方法:点图、茎叶图和直方图。
二、 相似性和相异性
 相似性定义这两个对象相似程度的数值度量。相似性越高,度量值就越大。一般相似度的取值在0和1之间。
 相异性定义两个对象差异程度的数值度量,对象差别越大,度量值越大。一般相异性的取值在

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值