数据挖掘导论(Pang-Ning Tan)习题记录

本文是《数据挖掘导论》第二章的习题解析,重点关注了数据的区间和比率属性的区别。区间属性表示两个值之间的差异有意义,如温度;比率属性在区间属性的基础上,0.0具有明确含义,如质量。此外,讨论了关联分析中属性二元化的必要性和方法。
摘要由CSDN通过智能技术生成

第2章 数据

习题1:(中文版本翻译错误)统计人员说“是的,字段2和3也有不少问题”,应该翻译为“字段2和3表达了相同的意思”。  译者在翻译该句的时候承用了上句的“有意思,还有其他问题吗”,但是作者这里想表达的不仅仅是字段2和3有问题,而是字段2和3是一样的含义,具有冗余属性列。


习题2:难点主要体现在区分 区间(interval)和比率(ratio)属性。

 区间属性:两个值之间的差是有意义的,比如温度,90°C比80°C高10°C。相对标称和序数属性,更具备数值的含义。

【An interval variable is a measurement where the difference between two values is meaningful. The difference between a temperature of 100 degrees and 90 degrees is the same difference as between 90 degrees and 80 degrees.】

比率属性:比率属性包含所有区间属性的性质

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值