MIMIC-III 临床数据集基准构建教程
1. 项目目录结构及介绍
在 mimic3-benchmarks
仓库中,主要的目录结构如下:
mimic3benchmark
: 包含用于处理 MIMIC-III 数据并构建基准任务的数据处理脚本。mimic3models
: 存放实现的各种机器学习模型代码,如多任务RNN等。resources
: 提供一些辅助资源,例如预训练模型或其他静态文件。scripts
: 含有构建和运行基准测试所需的一系列脚本。evaluation
: 用于评估模型性能的工具和指标计算。.gitignore
: Git 忽略文件列表。LICENSE
: 开源许可证信息,这里是 MIT 许可证。README.md
: 项目简介和指南。statistics.md
: 可能包含关于数据统计的信息。*.py
: 单独的 Python 模块或脚本。
解释: mimic3benchmark
是核心部分,它负责从原始CSV数据转换为按病人ID组织的子目录结构,mimic3models
则关注模型实现,而 scripts
目录中的脚本用于整个流程的自动化。
2. 项目的启动文件介绍
虽然这个项目没有明确的 "启动" 文件,但我们可以将 scripts
目录下的 extract_subjects.py
视为主导数据预处理的关键脚本。此脚本用于从MIMIC-III CSV文件中提取病人信息,并按照病人ID分别存储到相应的目录下。
此外,若要运行特定的基准任务,如训练和评估模型,通常会从 mimic3models
中选择一个具体的模型文件作为起点,并在相应的目录下运行包含训练和测试逻辑的Python脚本。
3. 项目的配置文件介绍
该项目没有明显的全局配置文件。不过,在运行某些脚本时,可能需要提供参数来指定输入数据路径、输出目录、模型参数等。这些参数通常是通过命令行传递给脚本的,而不是从配置文件中加载。例如:
python -m mimic3benchmark.scripts.extract_subjects [PATH_TO_MIMIC-III_CSVS] data/root/
这里,[PATH_TO_MIMIC-III_CSVS]
就是数据集的路径,而 data/root/
是预处理数据的输出位置。
若需自定义模型设置,您可能需要编辑模型类或训练脚本来调整超参数,而不是使用独立的配置文件。
请注意,由于项目的具体实现细节可能会随着版本更新而变化,建议参考最新的 README.md
或相关文档以获取最新信息。