机器学习实验—线性回归预测

最新推荐文章于 2024-06-12 22:25:14 发布

十_亿_光_年

最新推荐文章于 2024-06-12 22:25:14 发布

阅读量1.8k

点赞数 1

分类专栏：机器学习文章标签： Weka 线性回归

本文链接：https://blog.csdn.net/DmxExcalibur/article/details/76650997

版权

本文详细介绍了如何使用Weka进行线性回归实验，包括数据预处理、模型创建和结果分析。通过处理丢失数据，使用Weka创建回归模型，并通过10折交叉验证评估模型性能，得到相关系数0.9963等统计指标。

摘要由CSDN通过智能技术生成

一、实验目的和内容

1、掌握使用Weka做线性回归的方法；

2、掌握线性回归的相关知识；

3、处理丢失数据的值，替换原始数据中的短横线（因为这里的实验数据本应该是数字类型，而不是枚举类型）。

二、实验过程

1、下载安装Weka

下载不包含Java运行环境的安装包，下载之后按照提示安装软件，实验前电脑上已经安装Java运行环境。

  配置Java环境。安装配置完成。
  2、数据预处理：
  这里我们要介绍一下WEKA中的术语。表格里的一个横行称作一个实例（Instance），相当于统计学中的一个样本，或者数据库中的一条记录。竖行称作一个属性（Attribute），相当于统计学中的一个变量，或者数据库中的一个字段。这样一个表格，或者叫数据集，在WEKA看来，呈现了属性之间的一种关系(Relation)。
  WEKA存储数据的格式是ARFF（Attribute-Relation File Format）文件，这是一种ASCII文本文件。
  需要注意的是，在Windows记事本打开这个文件时，可能会因为回车符定义不一致而导致分行不正常。我使用UltraEdit查看ARFF文件的内容。
  下面我们来对这个文件的内容进行说明。
  识别ARFF文件的重要依据是分行，因此不能在这种文件里随意的断行。空行（或全是空格的行）将被忽略。
  以“%”开始的行是注释，WEKA将忽略这些行。如果你看到的“xx.arff”文件多了或少了些“%”开始的行，是没有影响的。
  除去注释后，整个ARFF文件可以分为两个部分。第一部分给出了头信息（Head information），包括了对关系的声明和对属性的声明。第二部分给出了数据信息（Data information），即数据集中给出的数据。从“@data”标记开始，后面的就是数据信息了。
  关系声明
  关系名称在ARFF文件的第一个有效行来定义，格式为

@relation <relation-name>

  <relation-name>是一个字符串。如果这个字符串包含空格，它必须加上引号（指英文标点的单引号或双引号）。
  属性声明
  属性声明用一列以“@attribute”开头的语句表示。数据集中的每一个属性都有它对应的“@attribute”语句，来定义它的属性名称和数据类型。
  这些声明语句的顺序很重要。首先它表明了该项属性在数据部分的位置。例如，“humidity”是第三个被声明的属性，这说明数据部分那些被逗号分开的列中，第三列数据 85 90 86 96 ... 是相应的“humidity”值。其次，最后一个声明的属性被称作class属性，在分类或回归任务中，它是默认的目标变量。
  属性声明的格式为