weka数据挖掘之预处理

数据挖掘中,预处理是确保高质量输入数据的关键步骤。Weka提供了多种预处理工具,包括聚集、抽样、维度规约、属性选择和属性创建等,以应对数据质量问题,例如通过聚集减少数据量,抽样获取代表性样本,维度规约降低噪声,属性选择提高处理效率,以及离散化和二元化变量变换等。这些技术帮助改善挖掘效果并提高算法的健壮性。
摘要由CSDN通过智能技术生成

weka数据挖掘之预处理

数据挖掘是在大量的、潜在有用的数据中挖掘出有用模式的过程,因此,源数据的质量直接影响到挖掘的效果,高质量的数据是有效挖掘的前提。但是,肯定是,不是所有的数据都是那么理想。

由于无法在数据的源头进行控制质量,所以只能通过两个方面设法避免数据质量的问题:
(1)数据质量问题的检测和纠正。
(2)使用能容忍低质量数据的算法。
第一种方式发生在数据挖掘前,这个过程成为预处理。
第二种方式需要提高算法的健壮性。
Weka专门提供若干过滤器进行预处理,还在explorer界面中提供选择属性标签页专门处理属性的自动选择问题。
数据预处理技术设计的策略和技术非常广泛,主要包括以下技术。

  1. 聚集
    聚集就是将两个或多个对象合并为单个对象。一般来说,定量数据通过求和活求平均值的方式进行聚集,定性数据通常通过汇总进行聚集。

         *定量数据:就是数值,比如年龄,身高,体重。可以进行平均值等计算的。定量数据说明的是现象的数量特征,是必须用数值来表现的。分为离散数据(Discrete data)和连续数据 (Continuous numerical data)。           
         定性数据(Qualitative data):定性是性质,只是计数资料。性 别,男或女,但在录入时可能会给定性变量的值进行赋值,如男为0, 女为1,这时的数代表的就是定性资料。不能进行计算。包括分类数据 和顺序数据,是一组表示事物性质、规定事物类别的文字表述型数据, 不 能将其量化,只能将其定性。定性数据说明的是事物的品质特征,
  • 2
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
数据挖掘Weka实验报告 姓名 _ 学号_ 指导教师 开课学期 2015 至 2016 学年 2 学期 完成日期 2015年6月12日 1.实验目的 基于http://archive.ics.uci.edu/ml/datasets/Breast+Cancer+WiscOnsin+%28Ori - ginal%29的数据,使用数据挖掘中的分类算法,运用Weka平台的基本功能对数据集进 行分类,对算法结果进行性能比较,画出性能比较图,另外针对不同数量的训练集进行 对比实验,并画出性能比较图训练并测试。 2.实验环境 实验采用Weka平台,数据使用来自http://archive.ics.uci.edu/ml/Datasets/Br- east+Cancer+WiscOnsin+%28Original%29,主要使用其中的Breast Cancer Wisc- onsin (Original) Data Set数据。Weka是怀卡托智能分析系统的缩写,该系统由新西兰怀卡托大学开发。Weka使 用Java写成的,并且限制在GNU通用公共证书的条件下发布。它可以运行于几乎所有操作 平台,是一款免费的,非商业化的机器学习以及数据挖掘软件。Weka提供了一个统一界 面,可结合预处理以及后处理方法,将许多不同的学习算法应用于任何所给的数据集, 并评估由不同的学习方案所得出的结果。 3.实验步骤 3.1数据预处理 本实验是针对威斯康辛州(原始)的乳腺癌数据集进行分类,该表含有Sample code number(样本代码),Clump Thickness(丛厚度),Uniformity of Cell Size(均匀的细胞大小), Uniformity of Cell Shape (均匀的细胞形状),Marginal Adhesion(边际粘连),Single Epithelial Cell Size(单一的上皮细胞大小),Bare Nuclei(裸核),Bland Chromatin(平淡的染色质),Normal Nucleoli(正常的核仁), Mitoses(有丝分裂),Class(分类),其中第二项到第十项取值均为1- 10,分类中2代表良性,4代表恶性。 通过实验,希望能找出患乳腺癌客户各指标的分布情况。 该数据的数据属性如下: 1. Sample code number(numeric),样本代码; 2. Clump Thickness(numeric),丛厚度; 3.Uniformity of Cell Size(numeric)均匀的细胞大小; 4. Uniformity of Cell Shape(numeric),均匀的细胞形状; 5.Marginal Adhesion(numeric),边际粘连; 6.Single Epithelial Cell Size(numeric),单一的上皮细胞大小; 7.Bare Nuclei(numeric),裸核; 8.Bland Chromatin(numeric),平淡的染色质; 9. Normal Nucleoli(numeric),正常的核仁; 10.Mitoses(numeric),有丝分裂; 11.Class(enum),分类。 3.2数据分析 由http://archive.ics.uci.edu/ml/datasets/Breast+Cancer+WiscOnsin+%28Ori- ginal%29得到一组由逗号隔开的数据,复制粘贴至excel表中,选择数据——分列——下 一步——逗号——完成,该数据是有关乳腺癌数据集,有11个属性,分别为Sample code number(样本代码),Clump Thickness(丛厚度),Uniformity of Cell Size(均匀的细胞大小),Uniformity of Cell Shape (均匀的细胞形状),Marginal Adhesion(边际粘连),Single Epithelial Cell Size(单一的上皮细胞大小),Bare Nuclei(裸核),Bland Chromatin(平淡的染色质),Normal Nucleoli(正常的核仁), Mitoses(有丝分裂),Class(分类),因为复制粘贴过来的数据没有属性,所以手工 添加一行属性名。Weka分类数据需把excel保存为一个csv文件。 3.2.1 .csv -> .arff 将CSV转换为ARFF最迅捷的办法是使用WEKA所带的命令行工具。 打开weka,之后出现GUI界面,如图1所示: (图1) 点击进入"Exploer"模块,要将.csv 格式转换为 .arff格式,点击open file...,打开刚保存的"乳腺癌数据集.csv
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值