数据挖掘入门笔记(一)--认识数据

俗话说好记性不如烂笔头,书总是读了忘,忘了只好再读。本次就好好记下读书笔记,经后再次查阅就不需再全部重读从砖一厚的书了


1. 数据的基本概念

1.1 数据的描述方法
数据通常有各种属性,其本身的属性决定可对其进行的操作。传统的关系型数据库就是一个对分析对象的数据-属性的描述集。
   属性 不同学科中有不同叫法。数据库/数据挖掘:属性;数据仓库:维;机器学习:特征;统计:变量。
   特征向量:(又称属性向量)用来描述一个给定对象的一组属性
   属性的分类
       标称属性(nominal atribute事物名称)不具有序数意义,可以为枚举类型,可用于分类。操作方法可为中心趋势度量,如众数
       二元属性(binary attribute) 只有两个状态的标称属性:0或1,又叫布尔属性
       序数(ordinal)操作:可用于等级评定,可取众数,中位数,均值无意义
       数值(numeric) 区间标度(interval-scaled)比率标度(ratio-scaled)
       离散/连续


1.2 数据的基本统计描述

   为了把握数据全貌,可用基本统计来识别数据属性

1.2.1 中心趋势度量: 均值,中位数,众数,中列数

算术平均(mean) 加权平均 截尾均值(trimmed mean)

中位数(median)度量倾斜,可用于数值数据,推广至度数数据

数(mode) 单峰众数经验估计法 : mean - mode 约 =  3* (mean - median)

中列数(midrage) 1/2 (max - min) 

实际中数据多为不对称,可能有倾斜。正倾斜为众数出现在小于中位数的区间(就是坐标轴上峰往左偏),负倾斜相反

1.2.2 散布:极差,四分位数,四分位数极差,五数概括,盒图,方差,标准差

数据散布或发散情况的度量

极差 max - min


1.2.3 数据可视化

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值