有用的数据分析
文章平均质量分 72
预测模型的开发与应用研究
预测模型的开发、应用和动态化
展开
-
花费-效益分析筛选肿瘤标记物最佳组合
本文的想法来自于一篇发表的论文[1]。论文作者有感于临床上存在的不恰当的肿瘤标记物的检测,搜集了各种肿瘤标记物(TM)的价格、检测结果和最终诊断等数据,使用逻辑回归模型分别计算出2,3和4种TM组合的敏感度,最终使用TM组合的价格和其敏感度的比值(越低越好)来筛选最具有效价比的TM组合,以实现降低花费等目的。疾病的花费显然是政府、医院和患者三方面共同关心的问题之一。通过相关数据分析,把钱花在该花的地方,对各方面都有益处,但是这方面的数据并不易得。原创 2024-06-05 15:01:46 · 629 阅读 · 0 评论 -
当你想使用预测概率作为预测模型的结果
使用预测概率作为模型的预测结果,这时候校准曲线是比其它指标(比如准确度)等更优先的指标,并不要求模型具有非常高的准确度才可以进入到临床实践,因为我们可以通过改变决策阈值来调节临床的收益。DCA最有用的地方是确定决策阈值,而不是评价模型的优劣,虽然它用于评价模型的优劣也是不错的指标。我们在和鲸社区建立了一个R代码的演示,欢迎大家参考。原创 2024-05-31 09:48:14 · 311 阅读 · 0 评论 -
SHAP值加持医学独立危险因素鉴定分析
最近,基于Boruta等分析,发展出以SHAP值为指标的变量筛选方法,例如python中的arfs包中的Leshy算法可以设置参数为shap值,能够更好地与后续的SHAP分析协调。常见的一种关键点是y(也就是SHAP)为0时对应的X值(特征值),在这个点之外,特征值对于结局的贡献可能是正向的,也可能是负向的。利用SHAP分析中的全局性分析功能,发现各个相关预测变量与结局变量之间的相关性(散点图)和交互作用(交互作用图),有助于快速发现变量间的关系,为后续阐明变量间的关系奠定基础。限制性立方样条去曲线拟合。原创 2024-05-26 18:18:16 · 472 阅读 · 0 评论 -
Streamlit+detabase构建调查问卷APP
在数据收集的场合,比如患者随访,调查问卷等,我们需要一种便捷的方式来收集、储存数据,这里展示用streamlit构建调查问卷的界面,使用网络数据库来作为数据存储,两者结合实现一种轻量级的数据采集系统。问卷部分:使用streamlit的form函数可以方便的组织一个简单的问卷,如果想更加专业,可以使用它的扩展库streamlit-survey,提交之后,数据会直接上传到网络数据库,也可以在后台对数据进行删除等处理。学习的成本不高,跟着官方的教程半天就能学会,关键还是问卷的设计等内容。原创 2024-05-22 15:49:28 · 395 阅读 · 0 评论 -
SHAP值是个什么值?
几率,更准确的说,成功的几率,被定义为成功的概率/失败的概率。明天晴天的概率为80%,非晴天的概率为20%,则几率为: 0.8/0.2=4。若成功的概率为50%,失败的概率也是50%, Odds等于1,对数几率(Log odds)为0。起初,我们知道SHAP值代表了变量对于结局变量的贡献程度,然而,在做了一些SHAP分析之后,感觉有一些SHAP值还是有一些难以理解的地方,比如,为什么有负值?移除该特征(前)后预测值的差,而是 在目前所有特征值的设定下,某特征值对于实际预测值和平均与预测值的差的贡献。原创 2024-05-15 13:43:41 · 1058 阅读 · 0 评论 -
SHAP分析交互作用的功能,如果你用的模型是xgboost
如果在SHAP分析中使用的是xgoost模型,就可以使用SHAP分析内置的交互作用分析,为分析变量间的相互提供了另外一个观察的视角。关于SHAP交互作用分析,一个。原创 2024-05-13 16:44:49 · 653 阅读 · 0 评论 -
SHAP分析+立方样条拟合的展示可能的交互作用
立方样条拟合的作用在于展示关键的点,为后续决策提供参考。根据本人已有的知识和拟合的结果来看,认为上述操作是正确的,但是也不排除存在错误的可能,欢迎大家讨论指正。原创 2024-05-11 12:28:01 · 477 阅读 · 0 评论 -
用立方样条联合SHAP分析在危险因素鉴定中的作用
如下图,从中可以看到变量之间的关系不是直线关系,但是,如何描述这种关系就是一个问题,比如,曲线的拐点在哪里?样条回归的作用是描述,通过SHAP分析我们大概知道是不是曲线,有几个拐点,但是并不确切,样条回归有助于确切的指出以上的参数,最终使我们可以确切地指出变量之间的关系,最终让我们对于变量之间的关系有了更多的认识。SHAP分析的作用是发现,通过便捷的操作发现预测变量和结局变量之间的关系,在没有SHAP分析之前,我们不容易发现变量之间的关系,只能是通过尝试性的样条回归分析来探索变量之间的关系。原创 2024-04-25 17:04:23 · 349 阅读 · 0 评论 -
tiktok如何影响用户行为的分析兼论快速数据分析的策略
快递数据分析的策略,特点是通过准确的变量筛选,迅速的把注意力集中到相关的变量上,最终快速得出结论,可能是数据分析过程的趋势之一。原创 2024-04-23 16:57:46 · 416 阅读 · 0 评论 -
快速找到可以用的R包或python包(比如可以对Cox数据进行shap分析的包)
第三步:按照图中取消掉大部分的选择,只保留对“Description”的选择,然后在上方输入框内输入关键词,比如“shap survival”。Python的网站是pypi,同样的我们在搜索框中输入关键词即可找到可以用于cox数据分析的python包。因为shap和shape相似,找出来的包比较多,但还是可以找到想要的包。这里介绍一种方法,当然去搜索引擎找,也是一种方法,有时候还可以找到不一样的结果。第一步:百度CRAN网站,点击左边栏的“search”,获得如下界面。原创 2024-04-22 19:37:46 · 356 阅读 · 0 评论 -
cox版本的Boruta+SHAP分析(心力衰竭数据集)
COX分析是医学分析中最重要的一种类型,分类结局中纳入了时间因素,较单纯的二分类结局能够提供更多的信息,比如某变量对于结局的贡献随时间是如何变化的?Boruta+SHAP的分析策略也可以用在Cox分析中,并且展示了一些cox分析独特的特点。Boruta算法是变量筛选的有力工具,而SHAP分析是观察预测变量与结局变量间关系的不错的方法,在传统的分析方法的基础上提供了一个全新的视角。Boruta算法+SHAP分析,正在逐渐成为一种流行的分析策略。这部分还是使用Boruta包,如图中仅作稍许变化即可。原创 2024-04-22 16:04:45 · 565 阅读 · 0 评论 -
适当睡眠有助于缓解抑郁
结果,各个评分之间普遍具有相关性,值得注意的是睡眠时长和其它变量之间呈现弱负相关,表明睡眠时间越长,抑郁等评分越低,值得进一步研究。使用SHAP分析的散点图,具体考察某变量与抑郁评分之间的相关性,其中的纵座标指的是睡眠时长对于抑郁评分的贡献。结果,睡眠时长与对抑郁评分贡献的SHAP值之间呈现“U”形关系,睡眠低于4小时,抑郁的评分高,8-9个小时,对抑郁评分贡献最低,超过10小时,SHAP值再度上升。比如,在睡眠时长5-10小时之间的睡眠时长区间内,焦虑评分高,抑郁评分却是低的。原创 2024-04-16 11:11:27 · 412 阅读 · 0 评论 -
什么样的数据分析才是有用的?
在进行数据分析时,应注意与业务人员密切沟通、选择合适的数据分析工具、不断学习新的知识和技能。原创 2024-04-13 19:45:22 · 274 阅读 · 0 评论 -
患者为什么感到满意--花时间与患者进行更多的交流
该数据发表在dryad上,特点在于将护理行为分为8种类型,分别是1. 协调的护理(coorination of care), 可以理解为患者接受到合适的护理;患者满意度是医院对科室或者医护人员重要的考核指标之一,而护理行为是决定患者满意度的重要部分。为此,上海某医院设计了调查问卷并收集了相关的数据,试图阐明护理行为与患者满意度之间的关系。患者满意度是“结局变量”,其它的变量是“预测变量”,我们希望找到两种变量之间的因果关系。对于这些数据的分析,将给我们提供对护理行为和患者满意度之间关系的认识。原创 2024-04-13 10:27:57 · 912 阅读 · 0 评论