weka之数据预处理

最新推荐文章于 2021-11-13 20:04:41 发布

dataee

最新推荐文章于 2021-11-13 20:04:41 发布

阅读量2.2k

点赞数 3

分类专栏： DataMining

DataMining 专栏收录该内容

30 篇文章 0 订阅

订阅专栏

weka在做数据预处理的时候针对attribute提供了多种方式，包括值的各种转换，常用的如下：

1.缺失值处理

weka.filters.unsupervised.attribute.ReplaceMissingValues。对于数值属性，用平均值代替缺失值，对于nominal属性，用它的mode(出现最多的值)来代替缺失值。

2.规范化处理

类weka.filters.unsupervised.attribute.Normalize。规范化给定数据集中的所有数值属性值，类属性除外。结果值默认在区间[0,1]，但是利用缩放和平移参数，我们能将数值属性值规范到任何区间。如：但scale=2.0，translation=-1.0时，你能将属性值规范到区间[-1,+1]。

3.标准化处理

类weka.filters.unsupervised.attribute.Standardize。标准化给定数据集中所有数值属性的值到一个0均值和单位方差的正态分布。

4.离散化处理

类weka.filters.supervised.attribute.Discretize和weka.filters.unsupervised.attribute.Discretize。分别进行监督和无监督的数值属性的离散化，用来离散数据集中的一些数值属性到分类属性。

代码如下：

ReplaceMissingValues filter = new ReplaceMissingValues();
filter.setInputFormat(instances);
Instances newTrain = Filter.useFilter(instances, filter);

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

dataee

关注关注

3
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

weka数据挖掘之预处理

Spark学习

11-24

1973

weka数据挖掘之预处理数据挖掘是在大量的、潜在有用的数据中挖掘出有用模式的过程，因此，源数据的质量直接影响到挖掘的效果，高质量的数据是有效挖掘的前提。但是，肯定是，不是所有的数据都是那么理想。由于无法在数据的源头进行控制质量，所以只能通过两个方面设法避免数据质量的问题：（1）数据质量问题的检测和纠正。（2）使用能容忍低质量数据的算法。第一种方式发生在数据挖掘前，

weka数据预处理

weixin_33759269的博客

04-03

683

Weka数据预处理(一) 对于数据挖掘而言，我们往往仅关注实质性的挖掘算法，如分类、聚类、关联规则等，而忽视待挖掘数据的质量，但是高质量的数据才能产生高质量的挖掘结果，否则只有"Garbage in garbage out"了。保证待数据数据质量的重要一步就是数据预处理（Data Pre-Processing），在实际操作中，数据准备阶段往往能占用整个挖掘过程6~8成的时间。本文就weka工具中...

参与评论您还未登录，请先登录后发表或查看评论

学习weka（7）：weka数据预处理方法

蓝亚之舟的博客

04-11

1万+

1、前言 weka 数据预处理阶段全部在 filter 上：下面把一些常见的机器学习数据与处理方法处理说一下（下面所有实例都是在 Explorer 模块上进行的）。 2、数据预处理方法可以看到其 filters 可以分为五类，重点是画红框的部分：supervised 是有监督的，unsupervised 是无监督的；每一种往下分，又分为基于 attribute（属性列）和 instance（实例），基于属性列是按照列来进行操作的，基于实例是按照数据行进行操作的。 2.1 常见机器学习预处理方法常见

weka数据集预处理

Go for IT

09-27

3153

1. 利用有监督的离散算法对数据集的属性进行离散，并保存离散后的数据集； import java.io.File; import weka.filters.SupervisedFilter; import java.io.IOException; import weka.core.Instances; import weka.core.converters.CSV

Weka中数据预处理的技术方法

teng_zz的博客

07-16

1532

目录 1 聚集 2 抽样 3 维度归约 4 属性选择 5 属性创建 6 离散化和二元化 7 变量转换 1 聚集聚集是将两个或者多个对象合并成单个对象。一般来说，定量数据都是通过求和或求平均值的方式进行聚集，定性数据通常通过汇总进行聚集。 2 抽样如果处理全部数据的开销太大，数据预处理可以使用抽样，只选择数据对象的子集进行分析。抽样方法有很多种，例如简单随机抽样和分层抽样。...

weka中的数据预处理

hunauchenym的专栏

08-29

1万+

<br />数据预处理包括数据的缺失值处理、标准化、规范化和离散化处理。<br />数据的缺失值处理：weka.filters.unsupervised.attribute.ReplaceMissingValues。对于数值属性，用平均值代替缺失值，对于nominal属性，用它的mode(出现最多的值)来代替缺失值。<br />标准化(standardize)：类weka.filters.unsupervised.attribute.Standardize。标准化给定数据集中所有数值属性的值到一个0均值

数据挖掘-WEKA实验报告一.pdf

07-14

这份“数据挖掘-WEKA实验报告一”详细介绍了如何使用WEKA进行数据预处理，这是数据挖掘流程中的关键步骤，旨在提高数据质量和挖掘效率。首先，实验内容包括对WEKA工具的初步认识和数据预处理。了解WEKA的运行环境...

数据预处理的weka.jar包

最新发布

04-08

打开eclipse ,在对应的工程下右击，选择Build Path ->选择Configure Build Path ->选择Libraries ->点击Add External JARs

人工智能-项目实践-数据预处理-对采集的数据进行预处理

03-04

首先，数据预处理的目的是为了清洗、转换和规范化原始数据，使之更适合机器学习算法的输入需求。这通常包括以下几个方面： 1. 数据清洗：去除重复值、处理缺失值（填充或删除）、消除异常值和噪声。例如，对于缺失...

weka 数据预处理 字符转数字

08-16

在Weka中，将字符转换为数字可以通过使用StringToNominal或NominalToString过滤器来实现。如果你想将字符特征转换为数字特征，可以使用StringToNominal过滤器。该过滤器将字符特征转换为标称（nominal）特征，然后...

基于weka的数据分类分析实验报告.

10-19

数据挖掘课程中，关于分类算法的课程实验报告，要求使用weka工具完成。

数据挖掘实验报告.doc

12-23

《数据挖掘》 Weka实验报告姓名＿学号＿指导教师开课学期 2015 至 2016 学年 2 学期完成日期 2015年6月12日 1.实验目的基于http://archive.ics.uci.edu/ml/datasets/Breast+Cancer+WiscOnsin+%28Ori - ginal%29的数据，使用数据挖掘中的分类算法，运用Weka平台的基本功能对数据集进行分类，对算法结果进行性能比较，画出性能比较图，另外针对不同数量的训练集进行对比实验，并画出性能比较图训练并测试。 2.实验环境实验采用Weka平台，数据使用来自http://archive.ics.uci.edu/ml/Datasets/Br- east+Cancer+WiscOnsin+%28Original%29，主要使用其中的Breast Cancer Wisc- onsin (Original) Data Set数据。Weka是怀卡托智能分析系统的缩写，该系统由新西兰怀卡托大学开发。Weka使用Java写成的，并且限制在GNU通用公共证书的条件下发布。它可以运行于几乎所有操作平台，是一款免费的，非商业化的机器学习以及数据挖掘软件。Weka提供了一个统一界面，可结合预处理以及后处理方法，将许多不同的学习算法应用于任何所给的数据集，并评估由不同的学习方案所得出的结果。 3.实验步骤 3.1数据预处理本实验是针对威斯康辛州(原始)的乳腺癌数据集进行分类，该表含有Sample code number（样本代码)，Clump Thickness（丛厚度），Uniformity of Cell Size（均匀的细胞大小）， Uniformity of Cell Shape （均匀的细胞形状），Marginal Adhesion（边际粘连），Single Epithelial Cell Size（单一的上皮细胞大小），Bare Nuclei（裸核），Bland Chromatin（平淡的染色质），Normal Nucleoli（正常的核仁）， Mitoses（有丝分裂），Class（分类），其中第二项到第十项取值均为1- 10，分类中2代表良性，4代表恶性。通过实验，希望能找出患乳腺癌客户各指标的分布情况。该数据的数据属性如下： 1. Sample code number（numeric），样本代码； 2. Clump Thickness（numeric），丛厚度； 3.Uniformity of Cell Size（numeric）均匀的细胞大小； 4. Uniformity of Cell Shape（numeric），均匀的细胞形状； 5.Marginal Adhesion（numeric），边际粘连； 6.Single Epithelial Cell Size（numeric），单一的上皮细胞大小； 7.Bare Nuclei（numeric），裸核； 8.Bland Chromatin（numeric），平淡的染色质； 9. Normal Nucleoli（numeric），正常的核仁； 10.Mitoses（numeric），有丝分裂； 11.Class（enum），分类。 3.2数据分析由http://archive.ics.uci.edu/ml/datasets/Breast+Cancer+WiscOnsin+%28Ori- ginal%29得到一组由逗号隔开的数据，复制粘贴至excel表中，选择数据——分列——下一步——逗号——完成，该数据是有关乳腺癌数据集，有11个属性，分别为Sample code number（样本代码)，Clump Thickness（丛厚度），Uniformity of Cell Size（均匀的细胞大小），Uniformity of Cell Shape （均匀的细胞形状），Marginal Adhesion（边际粘连），Single Epithelial Cell Size（单一的上皮细胞大小），Bare Nuclei（裸核），Bland Chromatin（平淡的染色质），Normal Nucleoli（正常的核仁）， Mitoses（有丝分裂），Class（分类），因为复制粘贴过来的数据没有属性，所以手工添加一行属性名。Weka分类数据需把excel保存为一个csv文件。 3.2.1 .csv -> .arff 将CSV转换为ARFF最迅捷的办法是使用WEKA所带的命令行工具。打开weka,之后出现GUI界面，如图1所示：（图1）点击进入"Exploer"模块，要将.csv 格式转换为 .arff格式，点击open file...,打开刚保存的"乳腺癌数据集.csv

数据标准化归一化方法总结

01-11

数据归一化方法和原理总结 matlab 中的归一化处理有三种方法 1. premnmx、postmnmx、tramnmx 2. restd、poststd、trastd 3. 自己编程 (1)线性函数转换，表达式如下： y=(x-MinValue)/(MaxValue-MinValue) 说明：x、y分别为转换前、后的值，MaxValue、MinValue分别为样本的最大值和最小值。 (2)对数函数转换，表达式如下： y=log10(x) 说明：以10为底的对数函数转换。 (3)反余切函数转换，表达式如下： y=atan(x)*2/PI (4)一个归一化代码. I=double(I); maxvalue=max(max(I)');%max 在把矩阵每列的最大值找到，并组成一个单行的数组，转置一下就会行转换为列，再max就求一个最大的值，如果不转置，只能求出每列的最大值。 f = 1 - I/maxvalue; %为什么要用1去减？ Image1=f;

weka进行数据预处理