Weka中数据预处理的技术方法

最新推荐文章于 2024-01-14 14:47:45 发布

是路宝哦

最新推荐文章于 2024-01-14 14:47:45 发布

阅读量1.5k

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/teng_zz/article/details/96133021

版权

目录

6 离散化和二元化

1 聚集

聚集是将两个或者多个对象合并成单个对象。一般来说，定量数据都是通过求和或求平均值的方式进行聚集，定性数据通常通过汇总进行聚集。

2 抽样

如果处理全部数据的开销太大，数据预处理可以使用抽样，只选择数据对象的子集进行分析。抽样方法有很多种，例如简单随机抽样和分层抽样。

3 维度归约

维度是指数据集中属性的数目。维度归约是指创建新属性，通过数据编码或数据转换，将一些旧属性合并在一起以降低数据集的维度。

4 属性选择

除了维度归约外，降低维度的另一种方法就是仅仅使用属性的一个子集。属性选择是指从数据集中选择最具代表性的属性子集，删除荣誉冗余或者不相关的属性，从而提高数据处理的效率，使模型更容易理解。下面介绍三种标准的属性选择方法：嵌入、过滤、包装。

嵌入方法：将属性选择作为数据挖掘算法的一部分。在挖掘算法运行期间，算法本身决定使用哪些属性以及忽略哪些属性。决策树通常使用这种方法。

过滤方法：在运行数据挖掘算法之前，使用独立于数据挖掘任务的方法进行属性选择，即：先过滤数据集产生一个属性子集。

包装方法：将学习算法的结果作为评价准则的一部分，使用类似于理想算法，但通常无法枚举出全部可能的子集以找出最佳属性子集。

5 属性创建

通过对数据集中的旧的属性进行处理，创建新的数据集。由于通常新数据集的维度比原数据低，因此可以获得维度归约到带来的好处。属性创建有三种方法：属性提取、映射数据到新空间和属性构造。

属性提取：由原数据创建新的数据集。

映射数据到新空间：使用一种完全不同的视角挖掘数据可能揭示重要而有趣的特征。

当原始数据的属性含有必要信息，但其形式不适合数据挖掘算法的时候，可以使用属性构造，将一个或多个原来的属性构造成新的属性。

6 离散化和二元化

将连续属性转换成分类属性成为离散化，将连续和离散属性转换为一个或多个二元属性称为二元化。
离散化的问题就是决定选择多少个分割点，以及确定分割点的位置。

7 变量转换

也称属性转换，是指用于变量的所有值的变换。有简单函数变换和规范化。

简单函数变换：使用一个简单数学函数分别作用于每一个值。

变量标准化：使整个值的集合具有特定的性质。

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

是路宝哦 CSDN认证博客专家 CSDN认证企业博客

码龄7年

35: 原创

8万+: 周排名

208万+: 总排名

8万+: 访问

: 等级

846: 积分

17: 粉丝

77: 获赞

21: 评论

138: 收藏

私信

关注

最新评论

vscode安装拓展插件报错提示请手动安装
nytonyto: 我不知道怎么回事，刚下载vscode，所有插件都只能手动下载，可以问一下怎么解决吗
vscode安装拓展插件报错提示请手动安装
小葵花❀c: 我现在也是，如何解决呢？
K折交叉验证解释
mv001: 他说的K个模型找最优和你说的这一段不都是一个意思吗？他问怎么找最优，你说的就是找最优的方法。
vscode安装拓展插件报错提示请手动安装
And wine️: 是进去之后搜不到吗？直接点击尝试手动下载，然后再根据博主下面的步骤就可以了
left join、right join、inner join的区别
HiSejoos: https://www.cnblogs.com/cooolbin/articles/1082372.html

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。