上期帮大家盘点了一下R中常用的可视化包,这期将简要盘点一下关于统计分析与机器学习的R包,并通过简要介绍包的特点来帮助读者深入理解可视化包。
本文作者为“食物链顶端”学习群中的小伙伴,感谢他们的分享。
话不多说我们一起来看看吧!
1. survival
简介:survival是目前用的最多的做生存分析的包,Surv:用于创建生存数据对象,survfit:创建KM生存曲线或是Cox调整生存曲线,survdiff:用于不同组的统计检验,coxph:构建COX回归模型,cox.zph:检验PH假设是否成立,survreg:构建参数模型,包括Km和cox分析。
缺点:图形不够美观。
2. glmnet 简介: glmnet是做lasso分析的R包,包括二分类logistic回归模型,多分类logistic回归模型,Possion模型,Cox比例风险模型,svm模型,是目前用的最多的lasso分析的包,简单易用,通过选择1se lambda为最优参数,广泛应用在筛选基因的研究中。 缺点:优化下速度。 3. randomForests 简介: randomForest 包提供了利用随 机森林算法解决分类和回归问题的功能。 使用起来比较简单,其中randomForest()函数用于构建随机森林模型,importance()函数用于计算模型变量的重要性,MDSplot()函数用于实现随机森林的 可视化,rfImpute()函数可为存在缺失值的数据集进行插补(随机森林法),得到最优的样本拟合值,treesize()函数用于计算随机森林中每棵树的节点个数。 缺点:据我所知这是用R做随机森林最常用(可能是唯一)的R包,比用python容易上手,硬要说缺点的话就是图形美观度,但可以后期AI调整。 4.