数据挖掘-基础知识-笔记汇总2:数据预处理-类型转换与采样

课程笔记第一篇

本课程笔记的课程来源于清华大学深圳研究生院-袁博老师的《数据挖掘:理论与算法》。视频在学堂在线或者b站都有。

第二章第三节-类型转换与采样:

数据一般分为:连续型(continuous)、离散型(discrete)、序数型(oordinal)、标称型(nominal)、无结构数据(例字符串)型。

各种类型的数据举例如下:

注意:1.序数型是有顺序的,如评等级:A、B、C、D。

           2.标称型不能绝对的使用0 1 2这样给每个属性编码,原因是如果这样编码,就会无意识地强加给了每个属性之间的关系,比如R G B三种颜色如果使用0 1 2编码,便会默认产生R与B的空间上的距离比R与G空间上的距离要远,但是这是没有根据的,所以我们给属性编码的时候要注意。

采样 sampling

在大数据中使用采样技术,数据太多,处理不过来,就要使用采样。

采样中有一个方法叫聚集aggregation:比如days——>months,省——>区域,来使数据更加平稳的,少一些变化。

对于不平衡的数据,可以调整类的比例。

不平衡数据集 imbalance dataset

整体准确率的概念不一定适用与此。所以使用如下数值来判断:

G-mean 值在0-1之间,两边的准确值都要看,有一边为0则整体为0;需要这个值高,必须是在两类的准确值都要高,即对的预测为对的,错的也要预测为错的。

acc:准确率(正确率)=所有预测正确的样本/总的样本  (TP+TN)/总

acc+和acc-如图,acc+=recall

召回率recall是表示的是所有实际正例中被分对的比例。

精确值precision是表示被预测为正例的示例中实际为正例的比例。

过度采样 - 克隆(不是简单复制,是找它的近邻点,然后在它们之间的区域中随机生成一个点,类似插值法。)

边缘采样 - 边缘点是最重要的,使用方法把边缘点找出来,比如计算法向量的方法。来取得只用5%的点就能和用100%的点的效果一样。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值