统计知识和杂谈
文章平均质量分 66
天桥下的卖艺者
4个R包的编写者。发布关于SPSS、R语言、stata等相关科研的文章。今后的方向聚焦于:1.机器学习和深度学习 2.各种模型算法研究 3.各种科研图形绘制 4.R语言编程和R包编写 5.数据挖掘
展开
-
推荐一本RMS包作者写的我正在追读的书《Regression Modeling Strategies》
文章表明一般来说节点数再3——5之间就可以了,节点为4通常可以很好的拟合了,样本量小(n100)的时候可以选5,也可以使用AIC的似然比来决定K值。写这本书的就是RMS包的作者,这是他早些年写的书,我们可以结合他写的书来加深对RMS包的理解,我个人觉得写得很好。熟悉我的粉丝都清楚,我很少推荐书,这次推荐这本书是我目前正在读的,这是本老书了,关于回归模型的,我觉得写的很好。看了这本书后发现,以前R的赋值符号是下面这种,就完全理解了,这是进化后的箭头。原创 2024-06-26 11:50:23 · 346 阅读 · 0 评论 -
R语言两种方法实现随机分层抽样
其实用起来非常简单哈,data就是你的数据,strataname就是你分层的变量名字,我们这里当然是SEX性别啦,size就是你抽取的数量,method是抽取的方法,有不替换的简单随机抽样(srswr)、替换的简单随意抽样(srswr)、泊松抽样(Poisson)、系统抽样(systematic sampling);这是个体检相关的数据,公众号回复:体检数据,可以获得这个数据。如果要提取数据,需要使用ID_unit这个变量,这是数据的标识,咱们通常会把分层抽样的数据用来建模,其余的数据用来验证。原创 2024-05-10 17:39:35 · 644 阅读 · 0 评论 -
聊聊Nhanes数据怎么做中介效应分析
研究的是银屑病和冠心病发病的中介因素,咱们来看下统计学部分,这篇文章介绍缺失超过30%的变量被删除,以后咱们也可以这样做。这个研究是探索挥发性有机物的个体代谢产物和组合代谢产物之间的关系尿液中的(mVOCs),代表VOCs的内部暴露水平,具有骨密度(BMD),骨质疏松症(OP)和骨折以及潜在的介质。最后来介绍一篇7分的文献,为什么放在最后介绍呢,因为它是个统计专业的杂志,应该可靠性很强,而且它还附带了代码。看到了把,使用的是mediation包,这是个常用的中介分析的包,我已经有多篇文章进行介绍了。原创 2024-02-02 09:06:28 · 1386 阅读 · 4 评论 -
回顾2023年总结和2024年计划
2.不少粉丝说ggrcs包不能做大于10万的数据,还有一些国外的老外也发邮件来问这个问题,其实这是rms包的限制,随着我对rms包理解加深,本人最近已经改良算法成功,在未来新版的新版ggrcs包将支持超过10万数据的绘图,为seer数据等大型数据提供支持。如果你确实需要帮助,问的时候要提供详细的资料,比如完全的代码、数据结构,报错代码,你做了什么尝试都要说的,你就发个报错代码,其他都没有,除非很简单,不然我也看不出来的。原创 2024-01-19 10:03:34 · 986 阅读 · 0 评论