使用Weka与Excel进行简单的数据分析
使用Weka实现一元线性回归
例:某银行家想统计信用卡积分与使用者月收入之间的关系,现有一文件bank.arff,该文件包含7个属性,分别为月收入、每月工作天数、当前信用卡额度、历史统计的按时还款比例、曾经的最大透支额、银行贷款的数目、信用卡积分。但是银行只想统计信用卡积分与月收入之间的关系,所以在构建模型时需要去除其余5个属性的影响,只留下“月收入”和“信用卡积分”这2个属性。
该文件为自定义文件。
bank.arff:
@RELATION creditCardScore
%%%%
%SECTION1:PERSONAL INFO
%%%%
%
%月收入
%
@ATTRIBUTE personInfo.monthlySalary NUMERIC
%%%%
%SECTION2:BUSINESS INFO
%%%%
%
%每月工作天数
%
@ATTRIBUTE businessInfo.workingDayPerMonth NUMERIC
%%%%
%SECTION3:CREDIT CARD INFO
%%%%
%
%当前额度
%
@ATTRIBUTE creditCardInfo.currentLimit NUMERIC
%
%月度正常还款比例
%
@ATTRIBUTE creditCardInfo.percentageOfNormalReturn NUMERIC
%
%曾经最大透支额
%
@ATTRIBUTE creditCardInfo.maximumOverpay NUMERIC
%%%%
%
%贷款数目
%
@ATTRIBUTE financialInfo.personalLoan NUMERIC
%%%%
%RESULT:CREDIT SCORE
%%%%
@ATTRIBUTE creditScore NUMERIC
@DATA
10000,22,20000,1,0,200000,55
15000,20,30000,0.5,14200,20000,78
20000,18,40000,0.6,50000,200000,87
30000,22,60000,0.2,30000,150000,67
22000,15,30000,0.7,20000,140000,71
13200,21,18000,0.9,40000,500000,43
15500,20,30000,0.4,14200,20000,59
25000,26,40000,0.5,50000,200000,88
28670,23,40000,0.7,30000,120000,68
22000,15,40000,0.7,20000,140000,72
10000,18,20000,0.6,30000,150000,47
14300,20,29800,0.5,14200,20000,72
20000,18,40000,0.9,50000,200000,88
34335,22,50000,0.6,30000,150000,74
24555,15,20000,0.9,20000,120000,79
10055,22,80000,1,0,200000,79
15000,20,80000,0.9,90200,20000,86
25400,17,30000,0.7,50000,200000,82
30000,22,70000,0.2,30000,0,72
22000,30,80000,0.7,20000,140000,71
使用Weka Explorer导入数据:
点击Open file导入后结果如下:
此时为数据的整体性分析。Attributes栏显示bank.arff文件中的各个属性,且单击每个属性会有单独的分析。单击Edit按钮可以查看文件的记录。
如:
根据题意,选中不需要的属性,单击Remove删除多余属性:
在Classify选项卡中单击Choose按钮,在Classifiers属性下的function属性下点击LineRegression选项进行线性回归分析。
在Test options区域中的各选项含义如下:
- Use training set:将全部数据用作模型训练
- Supplied test set:设置测试集,模型训练完成后,从这里设置测试数据集。
- Cross-validation:将数据集按照交叉验证的方法均匀划分,一部分作为训练集,一部分作为测试集
- Percentage split:按照一定比例,将数据集划分为训练集和测试集
此时选择Use training set选项进行实验,单击Start按钮查看分析结果:
分析结果中的各项参数:
- Correlation coefficient:相关系数
- Mean absolute error:平均绝对误差
- Root mean squared error:均方根误差
- Relative absolute error:相对绝对误差
- Root relative squared error:相对平方根误差
- Total Number of Instance:案例数
使用Excel实现多项式回归
例:多项式方程求解
现有实验数据如下:
在 文件 菜单下点击 选项 菜单:
选择 加载项,并选择 分析工具库:
点击 转到,在 加载宏 界面选择 分析工具库 后点击确定:
选择 数据分析,并指定分析类型为 回归:
在弹出界面输入x,y值输入区域:
点击确定查看分析结果: