数据挖掘-基础知识-笔记汇总2：数据预处理-类型转换与采样

最新推荐文章于 2022-09-05 16:47:39 发布

bensonrachel

最新推荐文章于 2022-09-05 16:47:39 发布

阅读量630

点赞数

分类专栏：数据挖掘文章标签：数据挖掘

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/bensonrachel/article/details/108341991

版权

数据挖掘专栏收录该内容

13 篇文章 3 订阅

订阅专栏

课程笔记第一篇

本课程笔记的课程来源于清华大学深圳研究生院-袁博老师的《数据挖掘：理论与算法》。视频在学堂在线或者b站都有。

第二章第三节-类型转换与采样：

数据一般分为：连续型（continuous）、离散型（discrete）、序数型（oordinal）、标称型（nominal）、无结构数据（例字符串）型。

各种类型的数据举例如下：

注意：1.序数型是有顺序的，如评等级：A、B、C、D。

2.标称型不能绝对的使用0 1 2这样给每个属性编码，原因是如果这样编码，就会无意识地强加给了每个属性之间的关系，比如R G B三种颜色如果使用0 1 2编码，便会默认产生R与B的空间上的距离比R与G空间上的距离要远，但是这是没有根据的，所以我们给属性编码的时候要注意。

采样 sampling

在大数据中使用采样技术，数据太多，处理不过来，就要使用采样。

采样中有一个方法叫聚集aggregation：比如days——>months，省——>区域，来使数据更加平稳的，少一些变化。

对于不平衡的数据，可以调整类的比例。

不平衡数据集 imbalance dataset

整体准确率的概念不一定适用与此。所以使用如下数值来判断：

G-mean 值在0-1之间，两边的准确值都要看，有一边为0则整体为0；需要这个值高，必须是在两类的准确值都要高，即对的预测为对的，错的也要预测为错的。

acc：准确率（正确率）=所有预测正确的样本/总的样本（TP+TN）/总

acc+和acc-如图，acc+=recall

召回率recall是表示的是所有实际正例中被分对的比例。

精确值precision是表示被预测为正例的示例中实际为正例的比例。

过度采样 - 克隆（不是简单复制，是找它的近邻点，然后在它们之间的区域中随机生成一个点，类似插值法。）

边缘采样 - 边缘点是最重要的，使用方法把边缘点找出来，比如计算法向量的方法。来取得只用5%的点就能和用100%的点的效果一样。

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
数据挖掘-基础知识-笔记汇总2：数据预处理-类型转换与采样

课程笔记第一篇本课程笔记的课程来源于清华大学深圳研究生院-袁博老师的《数据挖掘：理论与算法》。视频在学堂在线或者b站都有。第二章第三节-类型转换与采样：数据一般分为：连续型（continuous）、离散型（discrete）、序数型（oordinal）、标称型（nominal）、无结构数据（例字符串）型。各种类型的数据举例如下：注意：1.序数型是有顺序的，如评等级：A、B、C、D。 2.标称型不能绝对的使用0 1 2这样给每个属性编码，原因是如果这样编码，就会...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。