从数据分析角度看变量收集

预测模型的开发与应用研究

已于 2024-08-14 15:52:07 修改

阅读量113

点赞数 1

分类专栏：有用的数据分析文章标签：数据分析数据挖掘

于 2024-08-14 15:37:05 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/skyskytotop/article/details/141191265

版权

有用的数据分析专栏收录该内容

18 篇文章 0 订阅

订阅专栏

从数据分析角度看变量收集

1.容易收集的变量也不要不加挑选地放到数据集中，比如许多实验室检查的指标，会增加数据存储和分析的复杂度，最终却会被淘汰不纳入分析。

2. 对主要观察的自变量指标，可以进行多种方式进行测量，比如有个研究术后慢性疼痛的研究，围术期急性痛是相关的之一，这个数据集纳入了术前疼痛、术后静息痛、术后活动痛、术后咳嗽痛等多种围术期疼痛测量形式。好处是在数据分析的时候能比较这些变量哪个与结局变量的相关性更佳。

3. 原始变量是连续变量的尽量保留连续变量的形式，最近的有一个筛选的变量的工具叫Boruta算法，用于筛选与结局变量相关的变量用于后续分析，连续变量更多地体现出与结局变量的相关性，并且数据分析的时候可以使用立方样条回归等分析方法，如果转化成分类变量就没法进行一些分析。

构建数据集还是要有一些设计的概念在里面，或者说设计一定的”主题“，有主要的，想分析的变量，采用多种方法进行测量。

4. 尽量使用英文的变量名称，遵循一定的拼写规则，不要太长，中间不要有空格，可以用下划线隔开单词，需要说明的可以用另外的文档进行说明。在数据分析过程中经常使用的这种变量名称还是使用英文比较方便，在展示结果的时候再转换成中文即可；变量的label可以是字符形式，也可以是数字编码的形式，字符形式对画图相对友好，这个影响不大。

5.结局变量也可以设计多个相关的结局变量，数据分析的时候得出的结论可以相互支持，能够进行更全面的讨论。同样是上面考察术后慢性疼痛的数据集，考虑了普通术后慢性痛的时候还考察了术后神经病理性痛的情况，这样就可以使用神经病理性痛的分析结果来辅助说明术后慢性疼痛发生的情况，即使神经病理性痛的分析结果是阴性的。

6. 在数据收集过程中，可以利用一些数据分析工具（如Boruta算法）进行实时分析，及时发现问题并调整变量收集策略。我开发的“快速分析APP”，融合了boruta等变量筛选的方法，可以对收集的数据之间的相关性进行快速地检验。

数据分析的质量关键还是高质量的数据，在数据分析的过程中也发现了许多数据集存在众多的问题，结合自己的一点经验给大家提个醒，没有涉及的方面，大家补充。

预测模型的开发与应用研究

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
打赏
0
评论
从数据分析角度看变量收集

从数据分析角度看变量收集1.容易收集的变量也不要不加挑选地放到数据集中，比如许多实验室检查的指标，会增加数据存储和分析的复杂度，最终却会被淘汰不纳入分析。2. 对主要观察的自变量指标，可以进行多种方式进行测量，比如有个研究术后慢性疼痛的研究，围术期急性痛是相关的之一，这个数据集纳入了术前疼痛、术后静息痛、术后活动痛、术后咳嗽痛等多种围术期疼痛测量形式。好处是在数据分析的时候能比较这些变量哪个与结局变量的相关性更佳。3. 原始变量是连续变量的尽量保留连续变量的形式，最近的有一个筛选的变量的工具叫Boru
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

预测模型的开发与应用研究 文中代码请大家随意

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。