1. 一些散记知识点
1.1 数据对象与属性类型
关于属性
定义:属性(attribute)是一个数据字段,表示数据对象的一个特征。一般习惯称为”特征”
属性的分类
(1) 标称属性: “与名称相关”,标称属性的值是一些符号或事物的名称。每个值代表某种类别、编码或状态,一次标称属性又被看作是分类的,这些值不必具有有意义的序。例如:水果的种类,苹果、香蕉
(2) 二元属性:二元属性是一种特殊的标称属性,只有两个类别或状态:0或1,若对应True和False则又称为布尔属性。
注意:如果一个二元属性的两种状态具有同等价值并且携带相同权重;即关于哪个结果应该用0或1编码并无偏好。则称这个二元属性是对称的 例如“男、女”这两种状态;如果一个二元属性的状态结果不是同等重要的,如HIV的阳性和阴性,则称这个二元属性为非对称的。因为用1表示最重要的结果(通常是稀有的)编码(HIV阳性),另一方用0编码。
(3) 序数属性:其可能的值之间具有有意义的序或秩评定,但是相继值的差是未知的。例如:成绩的差、良好、优划分。
注意,标称、二元和序数属性都是定性的,即他们描述对象的特征,而不给出实际大小或数值。
(4) 数值属性:数值属性是定量的,即它是可度量的量,用整数或实数值表示。数值属性可以是区间标度的或比率标度的。
1.2 数据的基本统计描述
- 中心趋势度量:均值、中位数和众数
(1) 均值(mean): 令 x1,...,xi,...,xN x 1 , . . . , x i , . . . , x N 为 X X 的
个观测值,则该值集合的算术平均为:
若每个 xi x i 有对应的权重 wi w i ,则可以计算 加权平均为:
评价:尽管均值是描述数据集的最有用的单个量,但是它并非总是度量数据中心的最佳方法。主要问题是,均值对极端值(例如,离群点)很敏感。为了抵消少数极端值的影响,可以使用 截尾均值。
(2) 中位数(median):对于倾斜的非对称数据,数据中心的更好的度量是中位数。假设某属性 X X 的 个值按递增序排列,如果 N N 是奇数,则中位数为该有序集的中间值;如果 是偶数,则中位数不唯一,它可以是最中间两个值和它们之间的任意值,一般取二者平均。当观测数量很大时,中位数的计算开销很大。例如对给定形式为区间的数据分布:目标人群的收入10000~20000美元的人数为500,20000~30000美元的人数为200……中位数很难精确具体值,需要进行估计,用插值计算数据集的中位数近似值为:
其中, Li L i 是中位数的下界, N N 是整个数据集数值的个数, 是低于中位数区间的所有区间数值个数的频数和, freqmedian f r e q m e d i a n 是中位数区间的频数, width w i d t h 是中位数区间的宽度。
(3) 众数(mode):数据集的众数是集合中出现最频繁的值。具有一个、两个、三个众数的数据集合分别称为单峰的、双峰的和三峰的。一般,具有两个或更多众数的数据集是多峰的。极端情况下,若集合中每个数值只出现一次,则该集合没有众数。
经验关系有: mean−mode≈3×(mean−median) m e a n − m o d e ≈ 3 × ( m e a n − m e d i a n ) ,表示:如果均值和中位数已知,则适度倾斜的单峰频率曲线的众数容易近似计算。
(4) 中列数:一个集合中的最大值减去最小值。
下图是数据的倾斜程度示意图:
众数出现在中位数之前,表示数据是正倾斜的,看“尾巴”数据表现为右偏;反之,众数出现的中位数之后,表示数据是负倾斜的,左偏。
1.3 度量数据散布:极差、四分位数、方差、标准差和四分位数极差
极差、四分位数和四分位数极差
极差:集合中最大值max()与最小值min()之差
四分位数:4-分位数是3个数据点把数据(按大小升序排列)等分为4个相等的部分,使得每部分表示数据分布的四分之一。其中,第2个4-分位数为中位数。
四分位数极差:第1个和第3个4-分位数之间的距离是散步的一种简单度量,它给出被数据的中间一半所覆盖的范围。该距离称为四分位数极差(IQR),定义为: IQR=Q3−Q1 I Q R = Q 3 − Q 1五数概括、盒图与离散点
(1) 识别可疑的离群点的通常规则是,挑选落在第3个4-分位数数之上或第1个4-分位数之下的至少 1.5×IQR 1.5 × I Q R 处的值。
(2) 五数概括:中位数( Q2 Q 2 )、四分位数 Q1 Q 1 和 Q3 Q 3 、最小和最大观测值。即按次序: Minimum,Q1,Median,Q3,Maximum M i n i m u m , Q 1 , M e d i a n , Q 3 , M a x i m u m 。
(3) 盒图:
i. 盒的端点一般在四分位数上,使得盒的长度是四分位数极差IQR
ii. 中位数用盒内的线标记。
iii. 盒外的两条线(称为胡须)延伸到最小(Minimum)和最大(Maximum)观测值。
对于离群点,仅当最高和最低观测值超过四分位数不到 1.5×IQR 1.5 × I Q R ,胡须扩展到它们。否则,胡须在出现在四分位数的 1.5<