weka数据挖掘之预处理

最新推荐文章于 2021-04-11 09:34:54 发布

MYZ_my_love

最新推荐文章于 2021-04-11 09:34:54 发布

阅读量1.9k

点赞数 2

分类专栏： Weka 文章标签：数据挖掘 Weka分类技术

本文链接：https://blog.csdn.net/u014434646/article/details/53326057

版权

数据挖掘中，预处理是确保高质量输入数据的关键步骤。Weka提供了多种预处理工具，包括聚集、抽样、维度规约、属性选择和属性创建等，以应对数据质量问题，例如通过聚集减少数据量，抽样获取代表性样本，维度规约降低噪声，属性选择提高处理效率，以及离散化和二元化变量变换等。这些技术帮助改善挖掘效果并提高算法的健壮性。

摘要由CSDN通过智能技术生成

weka数据挖掘之预处理

数据挖掘是在大量的、潜在有用的数据中挖掘出有用模式的过程，因此，源数据的质量直接影响到挖掘的效果，高质量的数据是有效挖掘的前提。但是，肯定是，不是所有的数据都是那么理想。

由于无法在数据的源头进行控制质量，所以只能通过两个方面设法避免数据质量的问题：
（1）数据质量问题的检测和纠正。
（2）使用能容忍低质量数据的算法。
第一种方式发生在数据挖掘前，这个过程成为预处理。
第二种方式需要提高算法的健壮性。
Weka专门提供若干过滤器进行预处理，还在explorer界面中提供选择属性标签页专门处理属性的自动选择问题。
数据预处理技术设计的策略和技术非常广泛，主要包括以下技术。

聚集
聚集就是将两个或多个对象合并为单个对象。一般来说，定量数据通过求和活求平均值的方式进行聚集，定性数据通常通过汇总进行聚集。

     *定量数据：就是数值，比如年龄，身高，体重。可以进行平均值等计算的。定量数据说明的是现象的数量特征,是必须用数值来表现的。分为离散数据(Discrete data)和连续数据 (Continuous numerical data)。           
     定性数据(Qualitative data)：定性是性质，只是计数资料。性 别，男或女，但在录入时可能会给定性变量的值进行赋值，如男为0， 女为1，这时的数代表的就是定性资料。不能进行计算。包括分类数据 和顺序数据，是一组表示事物性质、规定事物类别的文字表述型数据， 不 能将其量化，只能将其定性。定性数据说明的是事物的品质特征,

最低0.47元/天解锁文章

MYZ_my_love

关注

2
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
weka数据挖掘之预处理

weka数据挖掘之预处理数据挖掘是在大量的、潜在有用的数据中挖掘出有用模式的过程，因此，源数据的质量直接影响到挖掘的效果，高质量的数据是有效挖掘的前提。但是，肯定是，不是所有的数据都是那么理想。由于无法在数据的源头进行控制质量，所以只能通过两个方面设法避免数据质量的问题：（1）数据质量问题的检测和纠正。（2）使用能容忍低质量数据的算法。第一种方式发生在数据挖掘前，
复制链接

扫一扫

专栏目录