20231105 反思组学数据中,病理类型清理问题
问题表现:
规则定义不清。唯一识别码定义不清。导致出现冗余的清理代码。
解决:
不应该直接去清理表格,再将清理好的表格进行合并。
应该针对每位患者去清理,减少可能的情况。
更改后措施:
对dt_omics中每个样本,针对唯一识别码(样本编号)、患者ID、样本日期,从而匹配日期最近的病理诊断信息。
如果病理诊断为单一诊断,则直接返回该位置为1,其他位置均为0的向量。
如果病理诊断为NOSURE。则对文本进行抽提。
避免了很多复杂的tag和清理规则。
为什么我一般做diag都是merge。因为我是首先明确了我最核心的规则,再去写代码。
这次我考虑了各种情况,但没有定义出我最核心的规则。
而我最开始并没有明确我的规则是:都以活检表为主,匹配活检表上最近的诊断数据。