js中text方法是啥意识_高分文章中的重抽样方法到底是个啥?R语言做给你看看...

99270123055922628e9162933d3f3707.gif 上期为大家介绍了经常出现在高分文章中的重抽样方法的原理,相信大家已经对这类常用方法有了基本的理解,本期内容将着重为大家介绍如何使用R语言实现此类方法,让大家能够做到真正的应用,为自己日后的科研工作打下基础。 上期链接:

高分预测建模文章中的重抽样方法到底是个啥?

留一交叉验证 在接下来的实例中,我们将使用R语言ISLR包中的数据集Auto。留一交叉验证主要用boot包中的cv.glm()函数。 582fd149272694bb4be09680d851fa20.png 5ef0f5ce0515540c66271357d36c9d06.png

此处,假设我们的研究任务是探索Auto数据集中mpg和horsepower的关系(由两个变量也可以延伸到多个变量,此处为了展示的方便,比如绘图,以最简单的两个变量作为示例),由于二者都是连续型变量,很多人第一反应是将二者进行线性回归。不过线性回归之前,大家最好绘制二者的散点图,粗略观察一下二者是否符合近似的线性关系,如下图所示,我们可以看出,mpg和horsepower这两个变量显然更加倾向于一种非线性的关系。所以传统的线性回归并不一定适合,当然,适合不适合,这一切都要交由统计结果来决定!那么,我们的任务是探索mpg与horsepower之间到底是线性关系,还是非线性关系,如果是非线性,那么是怎样的一种非线性关系(关于更多非线性的内容,请参考医学方此前的系列推文)。

d5f236e1e41e1b176477b7a8be1508e2.png 6212057d5f40ee10d3274bc32be99c6e.png

上述代码逻辑很清晰,我们构建了mpg和horsepower一次方到10次方的线性和非线性模型,此处使用的是glm函数,是因为该函数返回的模型能被cv.glm()函数识别和操作,值得注意的是,glm函数在不设置连接函数的情况下,与lm函数是一样的,都是进行一般线性回归!下图展示的是10个不同模型在留一交叉验证中的表现。

ecca157411707209f8bd8661c12bc68a.png 可以看出在2次方的时候,模型表现有了很大提升,而此后则无显著提升,因此此处,我们认为,二次回归可能是最佳模型。 K折交叉验证

在上述数据的基础上,我们继续进行K折交叉验证。

daaa579d9984061a542fb86219d065ae.png

基本理念和结果与留一交叉验证大同小异。不过,与留一交叉验证不同的是,K折交叉验证在计算上更有优势,计算时间大大缩短。

bootstrap方法

如上期推文所言,bootstrap方法不仅可以用来评价模型的拟合优度,而且也常用来衡量和量化某个统计指标的变异程度。

3.1 估计统计指标变异度 量化某个统计指标的变异度,其主要步骤有两步: 对于兴趣指标,构建一个可以计算它的公式 利用bootstrap方法,从样本中反复抽取样本计算该兴趣指标,最后合成该指标的变异度 我们以ISLR包中的Portfolio数据集为例。 a19924b0c4cfd4730fff22f44d6a2a42.png 12e791b534ef24c2398bccdc24442620.png 6982622ecd5a22115615c54551c08cde.png 3.2  估计模型拟合度

还是回到之前的Auto数据集上来。我们在这里仅仅比较一次方和二次方的区别。

首先构建一次方模型,然后用bootstrap估计系数的误差。

6e77f7f64f5edfd553d27838358a0caf.png

接着我们以同样的方法构建二次方模型:

d0598fe8904072580eba5c2d69598956.png 比较两个模型的系数误差,你就会发现,二次方模型的系数误差远低于一次方模型,由此可以说明,在当前的数据中,二次方模型比一次方更合适! 好啦,以上就是对于常用的重抽样方法的R实现,搞清了原理后,是不是超级简单呢?当然,R语言中有很多包可以做类似的工作,比如caret,大家可以多尝试一下。希望这两期的内容能对大家的日常研究工作有所帮助!预祝你的临床预测建模文章早日登上大刊!

6a4b08d7f7cc2010624bc418cee7d70f.png征 稿 启 事

「医学方」现正式向粉丝们公开征稿!内容须原创首发,与科研相关,一经采用,会奉上丰厚稿酬(300-2000元),详情请戳。

“医学方”始终致力于服务“医学人”,将最前沿、最有价值的临床、科研原创文章推送给各位临床医师、科研人员。

30ffb8b3a0a1814dfc8a8eebc75d7156.png

医学方已推出“实验室那些事儿”“SCI写作技巧”“文献精读与解析”“医学英语轻松学”“国自然基金申请”“临床数据挖掘”、“基因数据挖掘”、“R语言教程”、“医学统计学”、“微创动物实验培训”等多个专题课程,如需了解课程详细推文,可关注“医学方”公众号,点击“精品专题”进入

腾讯课堂:https://medfun.ke.qq.com

网易云课堂:http://study.163.com/u/ykt1467466791112

客服电话:15821255568

客服微信:yixuefang1234

efe53b2ac386852311cdb111c8453108.png

温馨提示:医学方还设有专门的讨论群哦~各位明星导师都在群中,可以解答各位的遇到的问题,如有兴趣,可以加客服微信后加入群聊.

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值