数据清理项目feedback记录

20231105 反思组学数据中,病理类型清理问题

问题表现:
规则定义不清。唯一识别码定义不清。导致出现冗余的清理代码。

解决:
不应该直接去清理表格,再将清理好的表格进行合并。
应该针对每位患者去清理,减少可能的情况。

更改后措施:
对dt_omics中每个样本,针对唯一识别码(样本编号)、患者ID、样本日期,从而匹配日期最近的病理诊断信息。
如果病理诊断为单一诊断,则直接返回该位置为1,其他位置均为0的向量。
如果病理诊断为NOSURE。则对文本进行抽提。

避免了很多复杂的tag和清理规则。

为什么我一般做diag都是merge。因为我是首先明确了我最核心的规则,再去写代码。
这次我考虑了各种情况,但没有定义出我最核心的规则。
而我最开始并没有明确我的规则是:都以活检表为主,匹配活检表上最近的诊断数据。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值