从数据分析角度看变量收集

从数据分析角度看变量收集

1.容易收集的变量也不要不加挑选地放到数据集中,比如许多实验室检查的指标,会增加数据存储和分析的复杂度,最终却会被淘汰不纳入分析。
2. 对主要观察的自变量指标,可以进行多种方式进行测量,比如有个研究术后慢性疼痛的研究,围术期急性痛是相关的之一,这个数据集纳入了术前疼痛、术后静息痛、术后活动痛、术后咳嗽痛等多种围术期疼痛测量形式。好处是在数据分析的时候能比较这些变量哪个与结局变量的相关性更佳。
3. 原始变量是连续变量的尽量保留连续变量的形式,最近的有一个筛选的变量的工具叫Boruta算法,用于筛选与结局变量相关的变量用于后续分析,连续变量更多地体现出与结局变量的相关性,并且数据分析的时候可以使用立方样条回归等分析方法,如果转化成分类变量就没法进行一些分析。
构建数据集还是要有一些设计的概念在里面,或者说设计一定的”主题“,有主要的,想分析的变量,采用多种方法进行测量。
4. 尽量使用英文的变量名称,遵循一定的拼写规则,不要太长,中间不要有空格,可以用下划线隔开单词,需要说明的可以用另外的文档进行说明。在数据分析过程中经常使用的这种变量名称还是使用英文比较方便,在展示结果的时候再转换成中文即可;变量的label可以是字符形式,也可以是数字编码的形式,字符形式对画图相对友好,这个影响不大。
5.结局变量也可以设计多个相关的结局变量,数据分析的时候得出的结论可以相互支持,能够进行更全面的讨论。同样是上面考察术后慢性疼痛的数据集,考虑了普通术后慢性痛的时候还考察了术后神经病理性痛的情况,这样就可以使用神经病理性痛的分析结果来辅助说明术后慢性疼痛发生的情况,即使神经病理性痛的分析结果是阴性的。
6. 在数据收集过程中,可以利用一些数据分析工具(如Boruta算法)进行实时分析,及时发现问题并调整变量收集策略。我开发的“快速分析APP”,融合了boruta等变量筛选的方法,可以对收集的数据之间的相关性进行快速地检验。
数据分析的质量关键还是高质量的数据,在数据分析的过程中也发现了许多数据集存在众多的问题, 结合自己的一点经验给大家提个醒,没有涉及的方面,大家补充。
  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

预测模型的开发与应用研究

文中代码请大家随意

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值