机器学习探索性数据分析的数据类型(补充)

探索性数据分析(Exploratory Data Analysis, EDA )

EDA是指对已有的数据(特别是调查或观察得来的原始数据)在尽量少的先验假定下进行探索,通过作图、制表、方程拟合、计算特征量等手段探索数据的结构和规律的一种数据分析方法。特别是当我们对这些数据中的信息没有足够的经验,不知道该用何种传统统计方法进行分析时,探索性数据分析就会非常有效。

离散属性:

若属性值间存在“序”(order)关系,可通过连续化将其转化为连续值。例如:
- 二值属性“身高”的取值“高”、“矮”可转化为{1.0, 0.0}
- 三值属性“高度”的取值“高”、“中”、“低”可转化为{1.0, 0.5, 0.0};

若属性间不存在序关系,假定有K个属性值,通常转化为k维向量,例如:
- 属性“瓜类”的取值“西瓜”、“南瓜”、“冬瓜”可转化为(0,0,1), (0,1,0), (1,0,0)

注意: 将无序属性连续化则会不恰当地引入序关系,对后续处理如距离计算等造成误导。

在讨论距离计算时,属性上是否定义了序关系很重要,有序的离散属性跟连续属性性质更接近一些,能够直接在属性值上计算距离:如{1,2,3},“1”与“2”比较接近,与“3”比较远。定义域为{飞机,火车,轮船}这样的无序离散属性则不能直接在属性值上计算距离。

周志华 《机器学习》

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值