数据与挖掘 笔记(2)Data Transformation

数据的类型(Attribute type)
1.Contiue 人的体重身高
2.Discrete 离散型数据,人的个数
3.Ordinal 等级制:ABC
4.Nominal 平行类:红黄蓝
5.String 文本型

注: 比较特殊的是Nominal的数据,因为如果单纯的设为0,1,2,无形之间拉大了第一个和第三个类型数据的距离。
所以,对Nominal数据的处理方法,若数据量较少,可设为:

[1,0,0,0]
[0,1,0,0]
[0,0,1,0]
[0,0,0,1]

采样(Sampling)
与统计学不同,正因为数据完备,无从检索,我们选取采样的方法来进行数据挖掘。这是一种减少繁冗的方法。
比如:
Change of scale :城市变为州,
Over samping :对数据量过少的样本进行周围适当扩充(SMOTE的工作原理)
Boudary sampling:边缘数据的重要性

分类器好坏的判别:
这里写图片描述

对于红和蓝的区别,尽管A有更高的正确率,但B才是真正做到了分出红和蓝,这就是不平衡数据的悖论。
即我们不能用准确率来判断所有数据。
有以下方法来解决:
这里写图片描述

其他:
1.对于极度不平衡的二分类数据集,应特别注意小样本的数据

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值