利用weka和clementine数据挖掘举例

最新推荐文章于 2024-08-06 09:33:31 发布

置顶

hustlx

最新推荐文章于 2024-08-06 09:33:31 发布

阅读量7.1k

点赞数

分类专栏：数据挖掘

本文链接：https://blog.csdn.net/HUSTLX/article/details/50849765

版权

本文介绍了利用Weka和Clementine工具对UCI Adult数据集进行数据挖掘的过程，包括数据预处理、降维、缺失值处理和编码。在数据分类中，对比了SVM、神经网络、决策树（随机森林、C&R算法、C5.0算法）、朴素贝叶斯和Logistic回归的性能。关联规则部分，运用Apriori和GRI算法发现特征间关联。结果显示，C5.0算法在分类中表现最佳，达到86.11%的准确率。关联规则分析揭示了婚姻状况、教育程度和资本收益与收入的关联性。

摘要由CSDN通过智能技术生成

1.数据概述

本报告中采用的数据集来自于UCI经典数据集Adult，最初来源是由1994年Barry Becker的统计数据集，该数据集本来最初的主要任务是根据数据集中的相关属性预测某个人的年收入是大于50K还是小于等于50K。本数据集一共有14个属性用来预测个人的年收入，包括了年龄、工作阶层、教育程度、职业、性别、种族、家庭状况等情况。这14个基本属性中有一项属性为fnlwgt，即final weight，具有相同背景的人的fnlwgt应该类似。同时本数据集一共有32561个样本案例，属性的数据类型有数值型数据和分类型数据。根据每一个属性和最终收入的关系的统计结果如下图所示：

图1.1 所有特征值的统计结果

其中蓝色表示的是年收入小于等于50K，红色表示是年收入大于50K。由上图可以看出很多特征中数据的分布很不平衡。在native_country属性中，绝大多数的人都集中在美国，这是由于该统计数据主要是在美国范围内进行调查的，所以大多数人的初始国籍都是美国，因而该属性对于最终的分析的影响不大。同时观察captital_gain和capital_loss的分布，可以发现大多数都处于0。在workclass中大多数的属性都是private，而relationship和sex之间也必然存在相关联系，例如relationship中的husband一定对应的是sex中的male，这些属性间的相关关系在之后的分析中都需要加以关注。

2.数据预处理

2.1降维、缺失项处理

本数据集14个属性分别为age、workclass、fnlwgt、education、education_num、marital_status、occupation、relationship、race、sex、capital_gain、capital_loss、hours_per_week、native_country，在这14个属性中，必然存在两者相关的属性。