高维数据探索 (High-Dimensional Data Exploration)

在医学领域做数据分析,经常把数据先整理成一张大宽表,然后再进行诸如疾病风险预测之类的建模。这张大宽表每行代表一个患者(case)的数据,而且通常会包含非常多列,每列对应某一种数据(feature)比如患者基本信息、诊断、检查结果等。这样的数据如果有非常多的行和列,则可以被称作是高维数据(High-DimensionalData Exploration)。在进行具体建模分析之前,非常重要的一步是
摘要由CSDN通过智能技术生成

在医学领域做数据分析,经常把数据先整理成一张大宽表,然后再进行诸如疾病风险预测之类的建模。这张大宽表每行代表一个患者(case)的数据,而且通常会包含非常多列,每列对应某一种数据(feature)比如患者基本信息、诊断、检查结果等。这样的数据如果有非常多的行和列,则可以被称作是高维数据(High-DimensionalData Exploration)。在进行具体建模分析之前,非常重要的一步是理解数据。数据探索就是为了在做具体数据分析之前,尽可能地了解某个数据集的特点[1],看看它能告诉我们什么。

在拿到一个高维临床数据集时,最常见的比如要知道里面包含的患者都是什么样的人。如果数据集有成千上万行,那么不可能把这成千上万个患者都看一遍,这个时候最直观的就是做采样sampling。选取其中比较有代表性的若干个患者,做为整个数据集中全体患者的代表。这个选择又有多种方式。尽可能地随机选择是一种方式,先ranking

  • 4
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值