pytorch_ehr/Preprocessing/data_preprocessing_v1.py at master · ZhiGroup/pytorch_ehr · GitHub
# 这个脚本的目的是预处理医疗数据,具体来说是将数据组织成适用于机器学习模型的格式,如Doctor AI或RETAIN。
# 数据来自代表病例和对照组的文件,每个文件包含患者ID、医疗代码和就诊日期。
# 脚本处理这些数据并输出多个文件,包括访问列表和诊断代码的pickle文件,以及诊断代码到整数的映射。
import sys # 导入sys库以便使用系统特定的参数和函数,比如命令行参数。
from optparse import OptionParser # 导入OptionParser以解析命令行选项。
# 尝试导入更快的cPickle,如果没有cPickle则回退到使用pickle。
try:
import cPickle as pickle
except:
import pickle
import numpy as np # 导入NumPy进行数值操作和数组操作。
impor