数据挖掘工具Weka之数据格式xls转化为ARFF格式

首先打开需要转化的文件,我这边是xls格式

然后另存为csv格式

然后在weka中将csv格式转化为arff格式的方法有三种,可以供大家自由选择。

方法一:

  • 进入“Exploer”模块
  • open file 找到我们刚才保存的csv文件,并type选择CSV

点击右上角的save

type选择arff ,保存到桌面就行了

 

 方法二:

  • 使用WEKA所带的命令行工具。

运行WEKA的主程序,在菜单中找到“Simple CLI”模块,它可提供命令行功能。

在新窗口的最下方(上方是不能写字的):输入框写上

java weka.core.converters.CSVLoader filename.csv > filename.arff

filename.csv写上csv刚才文件保存的绝对路径

filename.arff 写上合适的生成位置

然后回车执行就可以了

方法三:

在WEKA 3.5之后提供了一个“Arff Viewer”模块,我们可以用它打开一个CSV文件将进行浏览,然后另存为ARFF文件。

​​​

 同理找到保存的csv文件并打开

 另存,选择arff格式

 

上面介绍的是的xls格式转换为arff格式的方法,其他格式转化为arff格式的方法也类同。

注意:

当我们打开arff文件,可能会出现下面乱码的情况

是因为weka默认的字符集编码是Cp1252,如果导入的数据中有中文字符,就会显示为乱码。

解决方法:

  1. 打开weka安装目录下的RunWeka.ini文件,找到【fileEncoding=】这一行,将Cp1252编码改为需要的字符集编码,比如utf-8,cp936(简体中文),cp950(繁体中文)。

  2. 若我们有时遇到不能修改文件的状况,可以先把文件进行修改,之后保存到桌面,接着再复制粘贴替换到原始文件的目录路径下即可。

    2.重新打开weka软件。打开arff文件。

  • 1
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
根据1994年的美国人口普查数据进行数据挖掘分析,我们将使用Weka来探索那些收入超过50,000美元的人群。 Weka是一种流行的数据挖掘和机器学习工具,可以用于处理和分析大规模的数据集。使用Weka,我们可以探索人口普查数据中的各种特征和模式,以找到那些收入超过50,000美元的人群的共同特征。 首先,我们可以载入人口普查数据集到Weka中。数据集可能包含有关个人的各种属性,如年龄、教育水平、职业、工资等。我们需要使用Weka提供的数据预处理功能对数据进行清洗和准备,确保数据的质量和完整性。 接下来,我们可以使用Weka的分类算法来预测个人的收入水平。通过训练模型并使用历史数据,我们可以推断出哪些特征与超过50,000美元的收入相关联。常见的分类算法包括决策树、逻辑回归和支持向量机等。 在得出预测结果后,我们可以使用Weka提供的可视化工具来展示收入超过50,000美元的人群的特征和模式。这有助于我们更好地理解数据,并为进一步的分析提供线索。 除此之外,我们可以使用Weka进行特征选择和降维,以便建立更简约的模型和更好的解释能力。Weka提供了多种特征选择和降维技术,如主成分分析和相关系数评估等。 总的来说,使用Weka对1994年美国人口普查数据进行数据挖掘可以帮助我们找到收入超过50,000美元的人群的共同特征和模式。通过分析数据,我们可以获得有关该人群的洞察,并为进一步的研究和决策提供支持。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值