【数据挖掘概念与技术】学习笔记2-认识数据

  1. 数据集由数据对象组成。一个数据对象代表一个实体。通常,数据对象用属性描述。数据对象又称样本、实例、数据点或对象。如数据对象存放在数据库中,则是数据元组,即行对应数据对象,列对应属性。
  2. 属性的类型有:标称属性、二元属性、序数属性、数值属性。
    • 标称属性:如头发的颜色(可取黑、黄、白等),职业(可取工人、学生、教师、企业家等);这些值不必具有有意思的序,不是定量的。
    • 二元属性:只有两个类别或状态的标称属性。如果两个状态同等重要,则是对称的;否则是非对称的(通常用1来表示重要的状态,稀有的)。
    • 序数属性:其可能的值之间具有有意义的序,但相继值间的差是未知的。如军衔:列兵、军士、上尉,有序,但不能说上尉比列兵大多少。不是定量的。
    • 数值属性:定量的,用整数或实数表示。
  3. 中心趋势度量:度量数据分布的中部或中心位置。有均值、中位数(若为数值类型且有偶数个数据,取中间两数的均值)、众数(出现次数最多的数)、中列数(最大和最小值的平均值)。
  4. 数据的散布:极差(最大值与最小值之差)、四分位数(递增序排列,1/4、2/4、3/4处的数据,分别表示为Q1、Q2、Q3)、四分位数极差(Q3与Q1的差)、五数概括(中位数Q2、四分位数Q1、Q3、最小值、最大值)、盒图。还有方差、标准差。
  5. 识别可疑的离群点通常规则是:挑选落在第3个四分位数Q3之上或第1个四分位数之下至少1.5X(Q3-Q1)处的值。
  6. 数据的相似性和相异性:在聚类、离群点分析和最近邻分类等数据挖掘应用中,我们需要评估对象间的相似或不相似程序。
  7. 中心趋势度量和数据的散布都是对单一属性的刻画。
  8. 数据矩阵:nXp矩阵,n是对象个数,p是属性个数。类似于数据库表,每一行代表一个对象,每一列代表一个属性。这些对象可以是关系数据库的元组,也称数据样本或特征向量。
  9. 相异性矩阵:存放n个对象两两之间的邻近度,nXn矩阵,只在主对角线左下方有数据。数据值为d(i,j),表示对象i和j的相异性。
  10. 标称属性的邻近性度量:d(i,j)=(p-m)/p,p指属性个数,m指两个对象相同的属性个数。
  11. 数值属性的相异性:欧几里得距离(类似于空间两点间距离)、曼哈顿距离(两对象各属性差的绝对值的和)、闵可夫斯基距离(各属性的差的绝对值的p次方,求其和后再开p次方,我们保留p为属性数)。
  12. 数值属性,上确界距离:属性差的绝对值的最大值。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值