数据挖掘导论 (二)

该章节详细介绍了数据挖掘中的数据类型,包括分类(标称和序数)和数值(区间和比率)。讨论了数据质量的影响因素及衡量方法,并重点阐述了数据预处理的几个关键步骤,如选择分析属性、创建/改变属性、相似性和相异性的度量。预处理技术涉及属性选择、聚集、抽样、维归约和变量变换,以提高分析效果。
摘要由CSDN通过智能技术生成

第二章  数据 

数据类型

  • 分类的(定性的):标称和序数

  1. 标称: 只能区分是否相同 ,当做符号一样 不参与数值运算。(=或者!=)例:邮政编码
  2. 序数:能确定对象的序,即大小关系。(<,<=,>,>=)例:矿石程度(好,较好,最好)

  • 数值的(定量的):区间和比率

  1. 区间:可以进行差值比较。(+,-) 例:日历日期
  2. 比例:除了能进行差值比较还能进行比率比较 。  (*,/)例:长度

数据质量

引起数据质量降低的因素:

测量误差:记录的值与实际值不同  误差=测量值-实际值
数据收集错误:遗漏数据或者不当地包含了其他数据

噪声:测量误差的随机部分
  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值