Statistic Helper 开发自查帮助文档(一)

本文介绍了开发数据处理辅助软件的过程,重点讲解了统计模型的选择和降维方法,包括Best subset selection、Ridge regression、Lasso、PCR和PLS。详细阐述了各方法的原理、实现及适用场景,并提供了R语言实现代码示例。
摘要由CSDN通过智能技术生成

前言

辅修计算机专业毕设,突发奇想想写一个数据处理的辅助软件,初步打算自用,写完之后自用觉得舒服的话会考虑放出来,然后前段时间因为一直在忙统计的FYP,现在抓紧时间正式开始软件的开发工作,写下这篇博客来记录开发过程和各个功能模块的粗源代码,同时提供备忘录功能。
新手上路,多多指教。

模块一:Subset Selection

数据处理降维方法之一,默认用于Linear model,原理是通过CV寻找合适的dimenson subset,算法原理上通常有三种,best,下降的,上升的。
我们这里使用R语言中的regsubsets() 函数,可以找到不同dimension下的subset。但是预计只适用于dimension比较小的情况,大的dimension考虑要使用backward或forward的算法,视情况而定。

默认Best subset selection

library(leaps)
subset = regsubsets(Y ~., data = X, nvmax = p) #p is max dimension set before
subset.summary = summary(subset)
subset.summary$outmat

在选择最佳的dimension时,有RSS,adjusted R 2 R^2 R2 C p C_p

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值