基于Weka的典型数据挖掘应用

最新推荐文章于 2024-05-29 10:58:09 发布

赴前尘

最新推荐文章于 2024-05-29 10:58:09 发布

阅读量4.1k

点赞数 11

分类专栏：数据挖掘文章标签： weka 数据挖掘数据分类数据回归数据聚类

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_36940806/article/details/94716233

版权

实验目标

理解数据挖掘的基本概念，掌握基于Weka工具的基本数据挖掘（分类、回归、聚类、关联规则分析）过程。

实验内容

下载并安装Java环境（JDK 7.0 64位）。
下载并安装Weka 3.7版。
基于Weka的数据分类。
基于Weka的数据回归。
基于Weka的数据聚类。
基于Weka的关联规则分析。

实验步骤
下载并安装Java环境（JDK 7.0 64位）

1. 搜索JDK 7.0 64位版的下载，下载到本地磁盘并安装。

我的电脑已经预先装过了jdk8，在dos窗口下用java-version命令测试，结果下图所示：

2. 配置系统环境变量PATH，在末尾补充JDK安装目录的bin子目录，以便于在任意位置都能执行Java程序。

先在系统同环境变量里面配置了JAVA_HOME，值为JDK的安装目录,然后在path里面添加了JDK的bin目录，如下图所示：

下载并安装Weka 3.7版

电脑上安装的是weka3.8，运行初始界面如下图所示：

基于Weka的数据分类

1. 读取“电费回收数据.csv”（逗号分隔列），作为原始数据。

操作步骤： 1.主界面点击“explorer” 进入探索者界面。2.点击 open file打开“电费回收数据.csv”文件。3.打开之后点击“edit”，可查看原始数据，原始数据部分内容如下图所示：

实验开始前先去除对于电费回收分析无用的属性列，包括：YMD:(日期)，CONS_NO(用户编号),RCVED_DATE(实收日期)，CUISHOU_COUNT(催收次数),数据全为0，对于分析无帮助，去除。WZCS(违章次数)，数据全为0，对于分析无帮助，去除。

去除无用属性列之后的数据集如下图所示：

2. 数据预处理

（1）将数值型字段规范化至[0,1]区间。

规范化处理就是把连续型取值(numeric type)转化为离散型取值(nominal type)。

操作步骤：filter->unsupervised->attribute->normalize

normalize的默认参数是[0,1],直接点击apply按钮将数据集的字段规范化到[0,1]区间。规范化之后的数据集如下图所示：

（2）调用特征选择算法（Select attributes），选择关键特征。

特征选择是通过搜索数据中所有可能的属性组合，以找到预测效果最好的属性子集。自动选择属性需要设立两个对象：属性评估器和搜索方法。在进行特征选取时采取了两种方法进行特征选取，方法1注重对特征子集进行评价，方法2侧重对单个属性进行评价。

方法1：

选择CfsSubsetEval作为属性评估方法，这种方法根据属性子集中每一个特征的预测能力以及它们之间的关联性进行评估。

选择GreedyStepwise作为搜索算法，该方法进行向前向后的单步搜索。

然后点击start按钮开始选取关键特征，选取结果如下图所示：

由选取结果可看出，应选取RCVED(实收电费)，TQSC(欠费时长)两个属性作为关键属性。

方法2：

选择InfoGainAttributeEval作为属性评估方法，根据与分类有关的每一个属性的信息增益进行评估。

选择Ranker作为搜索算法，对属性值排序。

然后点击start按钮开始选取关键特征，选取结果如下图所示：

最低0.47元/天解锁文章

关注

11
点赞
踩
74

收藏

觉得还不错? 一键收藏
打赏
5
评论
基于Weka的典型数据挖掘应用

实验目标理解数据挖掘的基本概念，掌握基于Weka工具的基本数据挖掘（分类、回归、聚类、关联规则分析）过程。实验内容下载并安装Java环境（JDK 7.0 64位）。下载并安装Weka 3.7版。基于Weka的数据分类。基于Weka的数据回归。基于Weka的数据聚类。基于Weka的关联规则分析。实验步骤下载并安装Java环境（...
复制链接

扫一扫

专栏目录

赴前尘 CSDN认证博客专家 CSDN认证企业博客

码龄8年

209: 原创

2万+: 周排名

8710: 总排名

33万+: 访问

: 等级

4545: 积分

226: 粉丝

397: 获赞

122: 评论

1192: 收藏

私信

关注

热门文章

分类专栏

最新评论

docker安装etcd和etcd客户端
2401_83974256: 大佬高质量文章，图文并茂，逻辑清晰，受益匪浅，期待大佬新作。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
docker运行elastic和kibana，并使用密码连接
普通网友: 阅读这篇博文真是一次愉快的体验！作者的文字真是动人心弦，语言精准而生动。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
from torch._C import * dlopen: cannot load any more object with static TLS
superme JING: It seems that scikit-learn has not been built correctly. If you have installed scikit-learn from source, please do not forget to build the package before using it: run `python setup.py install` or `make` in the source directory. 这样的话报错： If you have used an installer, please check that it is suited for your Python version, your operating system and your platform. 然后我把sklearn放在最上面，这个错误没有了又报你文章中torch的错误
VMWare虚拟机Centos操作系统下基于kubeadm方式搭建K8S集群
赴前尘: 参考 https://blog.csdn.net/qq_36940806/article/details/135047219?spm=1001.2014.3001.5501 第4节
VMWare虚拟机Centos操作系统下基于kubeadm方式搭建K8S集群
宋剑鑫: 你好，这个kube-flannel.yml，能否直接给出来呢，这下载下不了。kubectl apply -f https://raw.githubusercontent.com/coreos/flannel/master/Documentation/kube-flannel.yml The connection to the server raw.githubusercontent.com was refused - did you specify the right host or port?

大家在看

最新文章

目录

评论 5

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

赴前尘 喜欢我的文章？请我喝杯咖啡吧！

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。