数据挖掘之数据准备—— 原始数据的描述

c58849470f8a8b8279e19dec5220e839f0b64e15

数据样本是数据挖掘过程的基本组成部分,每个样本都用几个特征来描述,每个特征都有不同类型的值。


首先介绍两种常见的基本类型:数值型 和 分类型


数值型值包括实型变量和整型变量如年龄,速度或长度。


数值型特征有两个重要的属性:其值有顺序关系和距离关系。


与其形成对照的是,分类型变量没有上述两种关系,分类型变量的两个值 可以相等或者不等。它们只建立一种等同关系(蓝色=蓝色 或者 红色 != 蓝色),这种类型变量的例子有眼睛颜色,性别,国籍。若分类型变量有两个值,则原则上它可以转换成一个二进制的数值型变量,这种数值型变量有两个值:0或1.

具有n个值的分类型变量可以转换成n个二进制数值型变量,即一个二进制数值对应分类型变量的一个值。


另一种基于变量值的变量分类方法是,根据它是连续型





  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值