R语言与机器学习中的回归方法学习笔记

最新推荐文章于 2024-09-05 07:39:06 发布

yujunbeta

最新推荐文章于 2024-09-05 07:39:06 发布

阅读量1.8w

点赞数 4

分类专栏： R语言计量经济学数据挖掘

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/yujunbeta/article/details/12648717

版权

本文以R中的lars包中的糖尿病数据集为例，探讨机器学习中的回归方法，包括决策树和boosting回归。通过交叉验证评估模型性能，分析过拟合现象，并展示如何使用rpart函数构建回归树以及mboost包进行boosting回归。

摘要由CSDN通过智能技术生成

机器学习中的一些方法如决策树，随机森林，SVM，神经网络由于对数据没有分布的假定等普通线性回归模型的一些约束，预测效果也比较不错，交叉验证结果也能被接受。下面以R中lars包包含数据集diabetes为例说明机器学习中的回归方法。

一、数据集及交叉验证办法描述

Diabetes数据集包含在R的lars包中，数据分为x,y,x2三个部分，因变量为y,数据是关于糖尿病的血液化验等指标。这个数据集最早被用在偏最小二乘回归的文章里。

交叉验证采用指标NMSE来评价模型好坏。这一统计量是计算模型预测性能和基准模型的预测性能之间的比率。通常采用目标变量的平均值来作为基准模型。其取值范围通常为0～1。如果模型表现优于这个非常简单的基准模型预测，那么NMSE应明显小于1。NMSE的值越小，模型的性能就越好。NMSE的值大于1，意味着模型预测还不如简单地把所有个案的平均值作为预测值！

交叉验证办法为将数据集分为5份，取4份作为训练集，1份作为测试集，共作5次，把误差平均起来作为衡量标准。选取代码如下：

n<-length(dataset)
index1<-1:n
index2<-rep(1:5,ceiling(n/5))[1:n]
index2<-sample(index2,n)

二、回归树

决策树是通过一系列规则对数据进行分类的过程。它提供一种在什么条件下会得到什么值的类似规则的方法。决策树分为分类树和回归树两种，分类树对离散变量做决策树，回归树对连续变量做决策树。

基本算法：

1.选择一个属性放置在根节点，为每个可能的属性值产生一个分支

2.将样本划分成多个子集，一个子集对应于一个分支

3.在每个分支上递归地重复这个过程，仅使用真正到达这个分支的样本

4.如果在一个节点上的所有样本拥有相同的类别，即停止该部分树的扩展

构造决策树(集合划分)时选择属性:

1.ID3:Information Gain

2.C4.5:Gain Ratio

3.CART:Gini Index

在R中我们使用rpart包中的rpart()函数实现树回归。我们先把rpart包中的两个十分重要的函数介绍如下：

构建回归树的函数：rpart（）用法如下：

rpart(formula, data, weights, subset,na.action = na.rpart, method,

model = FALSE, x = FALSE, y = TRUE, parms, control, cost, ...)

主要参数说明:

fomula回归方程形式:例如 y～x1+x2+x3。

data数据:包含前面方程中变量的数据框(dataframe)。

na.action缺失数据的处理办法:默认办法是删除因变量缺失的观测而保留自变量缺失的观测。

method根据树末端的数据类型选择相应变量分割方法,本参数有四种取值:连续型“anova”;离散型“class”;计数型(泊松过程)“poisson”;生存分析型“exp”。程序会根据因变量的类型自动选择方法,但一般情况下最好还是指明本参数,以便让程序清楚做哪一种树模型。

parms用来设置三个参数:先验概率、损失矩阵、分类纯度的度量方法。

control控制每个节点上的最小样本量、交叉验证的次数、复杂性参量:即cp:complexitypamemeter,这个参数意味着对每一

最低0.47元/天解锁文章

关注

4
点赞
踩
34

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。