使用Weka与Excel进行简单的数据分析

使用Weka与Excel进行简单的数据分析


使用Weka实现一元线性回归

例:某银行家想统计信用卡积分与使用者月收入之间的关系,现有一文件bank.arff,该文件包含7个属性,分别为月收入、每月工作天数、当前信用卡额度、历史统计的按时还款比例、曾经的最大透支额、银行贷款的数目、信用卡积分。但是银行只想统计信用卡积分与月收入之间的关系,所以在构建模型时需要去除其余5个属性的影响,只留下“月收入”和“信用卡积分”这2个属性。

该文件为自定义文件。
bank.arff:

@RELATION creditCardScore
%%%%
%SECTION1:PERSONAL INFO
%%%%
%
%月收入
%
@ATTRIBUTE personInfo.monthlySalary NUMERIC
%%%%
%SECTION2:BUSINESS INFO
%%%%
%
%每月工作天数
%
@ATTRIBUTE businessInfo.workingDayPerMonth NUMERIC
%%%%
%SECTION3:CREDIT CARD INFO
%%%%
%
%当前额度
%
@ATTRIBUTE creditCardInfo.currentLimit NUMERIC
%
%月度正常还款比例
%
@ATTRIBUTE creditCardInfo.percentageOfNormalReturn NUMERIC
%
%曾经最大透支额
%
@ATTRIBUTE creditCardInfo.maximumOverpay NUMERIC
%%%%
%
%贷款数目
%
@ATTRIBUTE financialInfo.personalLoan NUMERIC
%%%%
%RESULT:CREDIT SCORE
%%%%
@ATTRIBUTE creditScore NUMERIC
@DATA
10000,22,20000,1,0,200000,55
15000,20,30000,0.5,14200,20000,78
20000,18,40000,0.6,50000,200000,87
30000,22,60000,0.2,30000,150000,67
22000,15,30000,0.7,20000,140000,71
13200,21,18000,0.9,40000,500000,43
15500,20,30000,0.4,14200,20000,59
25000,26,40000,0.5,50000,200000,88
28670,23,40000,0.7,30000,120000,68
22000,15,40000,0.7,20000,140000,72
10000,18,20000,0.6,30000,150000,47
14300,20,29800,0.5,14200,20000,72
20000,18,40000,0.9,50000,200000,88
34335,22,50000,0.6,30000,150000,74
24555,15,20000,0.9,20000,120000,79
10055,22,80000,1,0,200000,79
15000,20,80000,0.9,90200,20000,86
25400,17,30000,0.7,50000,200000,82
30000,22,70000,0.2,30000,0,72
22000,30,80000,0.7,20000,140000,71

使用Weka Explorer导入数据:
在这里插入图片描述

点击Open file导入后结果如下:
在这里插入图片描述

此时为数据的整体性分析。Attributes栏显示bank.arff文件中的各个属性,且单击每个属性会有单独的分析。单击Edit按钮可以查看文件的记录。
如:
在这里插入图片描述

根据题意,选中不需要的属性,单击Remove删除多余属性:
在这里插入图片描述

在Classify选项卡中单击Choose按钮,在Classifiers属性下的function属性下点击LineRegression选项进行线性回归分析。
在这里插入图片描述

在Test options区域中的各选项含义如下:

  • Use training set:将全部数据用作模型训练
  • Supplied test set:设置测试集,模型训练完成后,从这里设置测试数据集。
  • Cross-validation:将数据集按照交叉验证的方法均匀划分,一部分作为训练集,一部分作为测试集
  • Percentage split:按照一定比例,将数据集划分为训练集和测试集

此时选择Use training set选项进行实验,单击Start按钮查看分析结果:
在这里插入图片描述

分析结果中的各项参数:

  • Correlation coefficient:相关系数
  • Mean absolute error:平均绝对误差
  • Root mean squared error:均方根误差
  • Relative absolute error:相对绝对误差
  • Root relative squared error:相对平方根误差
  • Total Number of Instance:案例数

使用Excel实现多项式回归

例:多项式方程求解

现有实验数据如下:

在这里插入图片描述

在 文件 菜单下点击 选项 菜单:
在这里插入图片描述

选择 加载项,并选择 分析工具库:
在这里插入图片描述

点击 转到,在 加载宏 界面选择 分析工具库 后点击确定:
在这里插入图片描述

选择 数据分析,并指定分析类型为 回归:
在这里插入图片描述

在弹出界面输入x,y值输入区域:
在这里插入图片描述

在这里插入图片描述

点击确定查看分析结果:
在这里插入图片描述

  • 1
    点赞
  • 20
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值