一、实验目的和内容
解决什么问题、做什么
1、掌握使用Weka做线性回归的方法; 2、掌握线性回归的相关知识;
3、处理丢失数据的值,替换原始数据中的短横线(因为这里的实验数据本应该是数字类型,而不是枚举类型)。
利用Weka
对现有数据进行短期预测,从而了解回归分析的基本思想和方法。
weka
提供了分类、聚类、关联规则方法,最后一个是对数据集整体的可视化结果,分析了每个属性的分布情况,用数值和柱形图体现。
回归分析(regression analysis)
是确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。回归
是研究因变量对自变量的依赖关系的一种统计分析方法,目的是通过自变量的给定值来估计或预测因变量的均值。它可用于预测、时间序列建模以及发现各种变量之间的因果关系。
本次实验使用的线性回归(Linear Regression)
通常是人们在学习预测模型时首选的技术之一。线性回归
使用最佳的拟合直线(也就是回归线)在因变量(Y)和一个或多个自变量(X)之间建立一种关系。
多元线性回归可表示为Y=a+b1*X +b2*X2+ e
,其中a表示截距,b表示直线的斜率,e是误差项。多元线性回归可以根据给定的预测变量(s)来预测目标变量的值。
二、实验过程
实验步骤和详细实验内容
(1)数据预处理
(2)利用weka进行预测
由图1-3可知,左侧显示预处理数据有8列、14行;右侧显示用户指定某一列数据的最大值、最小值等。
通过functions
下的LinearRegression-S0-R 1.0E-8-num-decimal-places 4
,选择构建模型所需要的数据;①选择Use training set
来构建模型。②选择实际人口数(Actual_popu
)作为模型的因变量。③单击Start
开始创建回归模型。
三、实验结果
实验结果数据(如果有评测要求应包括评测结果,例如分类的准确率)
(一)线性回归模型如下
(二)删除年份一列进行实验
重复进行实验过程,得到新的线性回归模型。进观察发现与第一次实验结果并无差异,所以初步认为所创建的线性回归模型与年份无关。
再次查看模型,可初步认为,此线性模型只与老龄人口占比、老龄人口死亡占比和女性育龄人口占比相关;删除年份一列,对模型并无影响。
四、实验总结
完成试验后对实验中的问题进行总结(可包括实验结果讨论及下一步工作)
(一)实验出现的问题
1、一开始导入文件错误总是报一个越界错误。重新导入文件修改格式得以正确进行实验。
2、加载数据时无法识别arff文件名。显示为“???”,经查阅资料是文件名1有误,修改即可。
3、载入数据出现乱码错误。修改表头为英文,问题解决。 4、原始数据有缺失值。手动修改“_”为“0”。
(二)实验总结
通过本次实验,初步了解Weka
软件的使用,对线性回归有了一定的认识。线性回归是一个出色的、简单的适用于数值预测的方法;线性回归也存在缺陷,如果数据呈现非线性关系,线性回归将会找到一条最适合的直线,最适合指最小均方差,而这条线也许并不适合。线性回归可以方便地应用于含有数值属性的分类问题。
本文没有weka的详细使用介绍,只是针对于本人所做实验的记录,下方参考文档中有weka的详细使用教程。