机器学习实验—线性回归预测

本文详细介绍了如何使用Weka进行线性回归实验,包括数据预处理、模型创建和结果分析。通过处理丢失数据,使用Weka创建回归模型,并通过10折交叉验证评估模型性能,得到相关系数0.9963等统计指标。
摘要由CSDN通过智能技术生成

一、实验目的和内容

        1、掌握使用Weka做线性回归的方法;

        2、掌握线性回归的相关知识;

        3、处理丢失数据的值,替换原始数据中的短横线(因为这里的实验数据本应该是数字类型,而不是枚举类型)。

二、实验过程

         1、下载安装Weka


        下载不包含Java运行环境的安装包,下载之后按照提示安装软件,实验前电脑上已经安装Java运行环境。


        配置Java环境。安装配置完成。
        2、数据预处理:
        这里我们要介绍一下WEKA中的术语。表格里的一个横行称作一个实例(Instance),相当于统计学中的一个样本,或者数据库中的一条记录。竖行称作一个属性(Attribute),相当于统计学中的一个变量,或者数据库中的一个字段。这样一个表格,或者叫数据集,在WEKA看来,呈现了属性之间的一种关系(Relation)。
        WEKA存储数据的格式是ARFF(Attribute-Relation File Format)文件,这是一种ASCII文本文件。
        需要注意的是,在Windows记事本打开这个文件时,可能会因为回车符定义不一致而导致分行不正常。我使用UltraEdit查看ARFF文件的内容。
        下面我们来对这个文件的内容进行说明。 
        识别ARFF文件的重要依据是分行,因此不能在这种文件里随意的断行。空行(或全是空格的行)将被忽略。 
        以“%”开始的行是注释,WEKA将忽略这些行。如果你看到的“xx.arff”文件多了或少了些“%”开始的行,是没有影响的。 
        除去注释后,整个ARFF文件可以分为两个部分。第一部分给出了头信息(Head information),包括了对关系的声明和对属性的声明。第二部分给出了数据信息(Data information),即数据集中给出的数据。从“@data”标记开始,后面的就是数据信息了。
        关系声明 
        关系名称在ARFF文件的第一个有效行来定义,格式为 

@relation <relation-name> 

        <relation-name>是一个字符串。如果这个字符串包含空格,它必须加上引号(指英文标点的单引号或双引号)。
        属性声明 
        属性声明用一列以“@attribute”开头的语句表示。数据集中的每一个属性都有它对应的“@attribute”语句,来定义它的属性名称和数据类型。 
        这些声明语句的顺序很重要。首先它表明了该项属性在数据部分的位置。例如,“humidity”是第三个被声明的属性,这说明数据部分那些被逗号分开的列中,第三列数据 85 90 86 96 ... 是相应的“humidity”值。其次,最后一个声明的属性被称作class属性,在分类或回归任务中,它是默认的目标变量。
        属性声明的格式为 

@attribute <attribute-name> <datatype> 

        其中<attribute-name>是必须以字母开头的字符串。和关系名称一样,如果这个字符串包含空格,它必须加上引号。 
        WEKA支持的<datatype>有四种,分别是 :

numeric-------------------------数值型 

<nominal-specification>-----分类(nominal)型 </

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值