数据挖掘读书笔记--第二章:认识数据

1. 一些散记知识点


1.1 数据对象与属性类型

  • 关于属性

    定义:属性(attribute)是一个数据字段,表示数据对象的一个特征。一般习惯称为”特征”

  • 属性的分类

    (1) 标称属性: “与名称相关”,标称属性的值是一些符号或事物的名称。每个值代表某种类别、编码或状态,一次标称属性又被看作是分类的,这些值不必具有有意义的序。例如:水果的种类,苹果、香蕉

    (2) 二元属性:二元属性是一种特殊的标称属性,只有两个类别或状态:0或1,若对应True和False则又称为布尔属性。
    注意:如果一个二元属性的两种状态具有同等价值并且携带相同权重;即关于哪个结果应该用0或1编码并无偏好。则称这个二元属性是对称的 例如“男、女”这两种状态;如果一个二元属性的状态结果不是同等重要的,如HIV的阳性和阴性,则称这个二元属性为非对称的。因为用1表示最重要的结果(通常是稀有的)编码(HIV阳性),另一方用0编码。
    (3) 序数属性:其可能的值之间具有有意义的序或秩评定,但是相继值的差是未知的。例如:成绩的差、良好、优划分。
    注意,标称、二元和序数属性都是定性的,即他们描述对象的特征,而不给出实际大小或数值。
    (4) 数值属性:数值属性是定量的,即它是可度量的量,用整数或实数值表示。数值属性可以是区间标度的或比率标度的。


1.2 数据的基本统计描述

  • 中心趋势度量:均值、中位数和众数

(1) 均值(mean): 令 x1,...,xi,...,xN x 1 , . . . , x i , . . . , x N X X N 个观测值,则该值集合的算术平均为:

x¯=Ni=1xiN=x1+x2+...+xNN x ¯ = ∑ i = 1 N x i N = x 1 + x 2 + . . . + x N N

若每个 xi x i 有对应的权重 wi w i ,则可以计算 加权平均为:
x¯=Ni=1wixiN=w1x1+w2x2+...+wNxNN x ¯ = ∑ i = 1 N w i x i N = w 1 x 1 + w 2 x 2 + . . . + w N x N N

评价:尽管均值是描述数据集的最有用的单个量,但是它并非总是度量数据中心的最佳方法。主要问题是,均值对极端值(例如,离群点)很敏感。为了抵消少数极端值的影响,可以使用 截尾均值
(2) 中位数(median):对于倾斜的非对称数据,数据中心的更好的度量是中位数。假设某属性 X X N 个值按递增序排列,如果 N N 是奇数,则中位数为该有序集的中间值;如果 N 是偶数,则中位数不唯一,它可以是最中间两个值和它们之间的任意值,一般取二者平均。当观测数量很大时,中位数的计算开销很大。例如对给定形式为区间的数据分布:目标人群的收入10000~20000美元的人数为500,20000~30000美元的人数为200……中位数很难精确具体值,需要进行估计,用插值计算数据集的中位数近似值为:
median=Li+N/2(freq)lfreqmedianwidth m e d i a n = L i + N / 2 − ( ∑ f r e q ) l f r e q m e d i a n w i d t h

其中, Li L i 是中位数的下界, N N 是整个数据集数值的个数, ( f r e q ) l 是低于中位数区间的所有区间数值个数的频数和, freqmedian f r e q m e d i a n 是中位数区间的频数, width w i d t h 是中位数区间的宽度。
(3) 众数(mode):数据集的众数是集合中出现最频繁的值。具有一个、两个、三个众数的数据集合分别称为单峰的、双峰的和三峰的。一般,具有两个或更多众数的数据集是多峰的。极端情况下,若集合中每个数值只出现一次,则该集合没有众数。
经验关系有 meanmode3×(meanmedian) m e a n − m o d e ≈ 3 × ( m e a n − m e d i a n ) ,表示:如果均值和中位数已知,则适度倾斜的单峰频率曲线的众数容易近似计算。
(4) 中列数:一个集合中的最大值减去最小值。
下图是数据的倾斜程度示意图:
这里写图片描述
众数出现在中位数之前,表示数据是正倾斜的,看“尾巴”数据表现为右偏;反之,众数出现的中位数之后,表示数据是负倾斜的,左偏。


1.3 度量数据散布:极差、四分位数、方差、标准差和四分位数极差

  • 极差、四分位数和四分位数极差

    极差:集合中最大值max()与最小值min()之差
    四分位数:4-分位数是3个数据点把数据(按大小升序排列)等分为4个相等的部分,使得每部分表示数据分布的四分之一。其中,第2个4-分位数为中位数。
    四分位数极差:第1个和第3个4-分位数之间的距离是散步的一种简单度量,它给出被数据的中间一半所覆盖的范围。该距离称为四分位数极差(IQR),定义为: IQR=Q3Q1 I Q R = Q 3 − Q 1

  • 五数概括、盒图与离散点
    (1) 识别可疑的离群点的通常规则是,挑选落在第3个4-分位数数之上或第1个4-分位数之下的至少 1.5×IQR 1.5 × I Q R 处的值。
    (2) 五数概括:中位数( Q2 Q 2 )、四分位数 Q1 Q 1 Q3 Q 3 、最小和最大观测值。即按次序: Minimum,Q1,Median,Q3,Maximum M i n i m u m , Q 1 , M e d i a n , Q 3 , M a x i m u m
    (3) 盒图
    i. 盒的端点一般在四分位数上,使得盒的长度是四分位数极差IQR
    ii. 中位数用盒内的线标记。
    iii. 盒外的两条线(称为胡须)延伸到最小(Minimum)和最大(Maximum)观测值。
    对于离群点,仅当最高和最低观测值超过四分位数不到 1.5×IQR 1.5 × I Q R ,胡须扩展到它们。否则,胡须在出现在四分位数的 1.5<

  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值