每天读一篇文献10--Rediscovery of CNN’s Versatility for Text-based Encoding of Raw Electronic Health Records

之前的工作都投入了大量的精力对原始Electronic Health Records(EHR)进行预处理以标准化EHR模式,或者专门针对给定任务进行特征工程。这是一个明显的限制,因为需要大量的人类劳动和临床领域知识才能产生令人满意的模型性能。

最近,UniHPF 提出了一个通用框架,它可以嵌入原始EHR的全部特征,而不管数据库中使用的模式和医疗代码标准如何。具体来说,UniHPF将EHR数据视为纯文本,并将EHR表(如处方、实验室结果等)扁平化以将其馈送到基于Transformer的文本编码器,无需任何预处理或特征选择处理原始的EHR数据。因为它以文本编码的方式编码整个EHR数据,UniHPF生成了非常长的嵌入数据。这对框架施加了很强的计算限制,需要额外的模块将嵌入的数据压缩到更小的尺寸。

对于数据集的重建任务,CNN在作为编码器和解码器时都优于Transformer。实验表明CNN是一个比Transformer更好的编码器,因为( C , C)与( T、C)相比在hi和fl结构上都表现出更高的性能。当以同样的方式进行比较时,CNN作为解码器表现出远优于Transformer的性能。这比编码器的情况要宽得多。单独由CNN组成的自编码器比Transformers的自编码器表现更好,强化了CNN在两个方面都更好的结论。

表明,EHR作为时间序列数据集具有内在的时间局部性;EHR中包含的每个医疗事件主要与短时间内发生的事件相关。具体来说,具有局部感受野的CNN的重建结果优于具有全局感受野的Transformer。此外Appendix. K, Transformer主要关注以对角线附近元素为代表的时间邻近事件,在预测情况下表现出完全不同的模式。最后,通过对时间维度为t的结果进行重新排列,CNN随着t的增加表现明显更好,而Transformer则停滞或减少。因此,为了以最小的损失保留患者信息,即使在相同的潜在维度内,也最好保留更多的时间信息。

对于预测任务,基于CNN的编码器在分层设置中表现出与基于Transformer的编码器相当的性能。由于四个模型共享同一个分类器,我们比较了基于不同编码器设置的结果。这些结果表明,在预测任务中,基于CNN的编码器比Transformer编码器对EHR层次结构的显式信息更有效。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值