医学数据挖掘流程（二）：数据预处理

天狼啸月1990

已于 2023-07-20 08:59:18 修改

阅读量2.2k

点赞数 1

分类专栏：数据挖掘文章标签：数据挖掘数据处理

于 2021-11-11 21:15:31 首次发布

本文链接：https://blog.csdn.net/qq_33419476/article/details/121276528

版权

医学数据挖掘基本素养：每一步都要校对数据！！！！！！！！！！！！！！！！！

看数据量、特征数据缺失情况、离散情况、差异情况、特征包含情况（频次、dosage和日剂量）、运行结果。要不然建模数据不好，得重新返工。

代码没思路，多看原始数据。逻辑顺，才能写代码顺。深刻理解原始数据，才能理清逻辑。才能决定手工操作方便还是代码方便，在用药数据重复和交叉的情况需要百度药物药效属性，才能决定该合并还是删除。不看数据，没有发言权！！！！！！

数据处理注意事项：

简略查看主要数据：用药和tdm。先提取用药数据，纳排后与tdm数据拼一块，查看数据量和patient_id个数，像日剂量计算、身高体重等字段可以先不加。分轻重缓急
明确限定：
- 时间限定
- id/case_no限定
- 关键词限定。str.contains('keyword')
- 结局限定
时间问题：所有变量都与结局相关。
数据类型：
- patient_id（患者id），case_no（住院记录id），这些id数据类型在读入时可能为int或float，造成merge无法匹配，应在读入时设置为dtype={'patient_id': str}；
- age、weight等str类型需要转换为float类型，计算BMI；value=round(value,2)，保留2为小数
- start_datetime或end_datetime等str还是timedelta时间戳类型，因为str无法进行时间加减datetime.timedelta(days=7)

时间格式：规范化为2018-01-01 18:46:23，而不是13/09/2018 18:46:23，因为python sort_values()方法按第一个数排序，会把12/04排在22/02前面！
明确数据对应关系：主键。选择纳排基准(patient_id或case_no)，合并数据时，要明确id对应的用药、住院记录关系
- 一对一。一个患者对应一个id
- 按出院日剂量分组时。虽然病人可能存在多次入院，多次出院时剂量改变，但我们要研究他再次入院的话，只能以他第一次出院日剂量作为分组标准，分析他再次入院，否则无法明确分析不同日剂量组别的入院差异。因为他再次入院的记录可能按日剂量分到其他组了，这导致我们无法检测数再次入院。
- 一对多。一个患者可能对应多条住院记录case_no；一条住院记录可能对应多条用药记录
操作DataFrame数据之前：
- 删除空值
- 排序
- 删除异常值：文字、过大值(绝对值大于中位数100倍)
- 删除重复

保存DataFrame数据之前：
- 排序
- 重置索引。df=df.reset_index(drop=True)
- 输出数据统计。print(df.shape); print(df['patient_id'].nunique()); print(df['case_no'].nunique())

1.1 用药原始数据doctor_order预处理

1.2 诊断原始数据diagnostic预处理

1.3 检验原始数据test_record+test_result预处理

1.4 住院记录df_inp

1.5 medical_record个人史既往史

2. 纳排标准 <= 明确纳排基准patient_id，case_no

4. 增加个人史(吸烟史、饮酒史)既往史(糖尿病、高血压)

7.3 同一病人相邻两次TDM检测间隔15天判断

Medical DM数据处理流程：参考丙戊酸和甲氨蝶呤项目