Statistic Helper 开发自查文档(一)
前言
辅修计算机专业毕设,突发奇想想写一个数据处理的辅助软件,初步打算自用,写完之后自用觉得舒服的话会考虑放出来,然后前段时间因为一直在忙统计的FYP,现在抓紧时间正式开始软件的开发工作,写下这篇博客来记录开发过程和各个功能模块的粗源代码,同时提供备忘录功能。
新手上路,多多指教。
模块一:Subset Selection
数据处理降维方法之一,默认用于Linear model,原理是通过CV寻找合适的dimenson subset,算法原理上通常有三种,best,下降的,上升的。
我们这里使用R语言中的regsubsets() 函数,可以找到不同dimension下的subset。但是预计只适用于dimension比较小的情况,大的dimension考虑要使用backward或forward的算法,视情况而定。
默认Best subset selection
library(leaps)
subset = regsubsets(Y ~., data = X, nvmax = p) #p is max dimension set before
subset.summary = summary(subset)
subset.summary$outmat
在选择最佳的dimension时,有RSS,adjusted R 2 R^2 R2, C p C_p