OncoKB 注释器开源项目使用指南
欢迎使用OncoKB注释器,一个基于Python的工具,用于在MAF(Mutation Annotation Format)文件中添加OncoKB的注释信息。OncoKB是一个知名的癌症基因变异数据库,提供变异的临床意义和生物标志物信息。以下是关于该项目的关键组件和如何开始使用的详细说明。
1. 目录结构及介绍
OncoKB注释器的仓库遵循了清晰的组织结构,以便于开发者和用户快速定位所需文件:
README.md
: 项目的主要说明文件,提供了快速概览和基本的安装与使用指导。requirements
: 包含了两个子目录,common.txt
列出了所有版本共享的依赖项,而pip3.txt
和pip2.7.txt
分别是Python 3和Python 2.7的特定依赖列表。example.sh
: 示例脚本,展示了如何运行脚本来对示例数据进行注解。MafAnnotator.py
,FusionAnnotator.py
,CnaAnnotator.py
: 核心脚本,分别用于注释MAF文件中的变异,融合基因和拷贝数变异。.gitignore
,LICENSE
等标准Git与许可文件。
2. 项目的启动文件介绍
-
主要执行脚本:
MafAnnotator.py
: 用于对MAF文件进行注释,这是最常用的入口点。它需要OncoKB的API token来访问数据,并可以自定义输出包括基因符号、蛋白改变等额外信息。
使用示例:
python MafAnnotator.py -i input.maf -o output.annotated.maf -b YOUR_ONCOKB_API_TOKEN
-
其他重要脚本:
FusionAnnotator.py
,CnaAnnotator.py
同样为核心脚本,分别处理融合事件和拷贝数变异,用法类似上述脚本。
3. 项目的配置文件介绍
OncoKB注释器的配置主要通过命令行参数实现,而不是传统意义上的独立配置文件。然而,间接地,可以通过环境变量或脚本参数来“配置”应用的行为,例如指定API令牌(-b ONCOKB_API_TOKEN
)、参考基因组(-r GRCh37或GRCh38)以及是否将描述加入到注释文件中(-d)。
对于更复杂的定制需求,建议通过修改脚本内部的默认设置或通过环境变量间接配置。这种方式虽然不如独立配置文件直观,但保持了工具的轻量级和灵活性。
安装与依赖管理
确保你的环境中已安装正确的Python版本,并使用以下命令安装必要的库:
-
对于Python 3:
pip install -r requirements/common.txt -r requirements/pip3.txt
-
对于Python 2.7(尽管不推荐,因为已不再维护):
pip install -r requirements/common.txt -r requirements/pip2.7.txt
以上就是使用OncoKB注释器的基础知识,确保获取OncoKB API token并了解你的数据格式,以充分利用这个强大的工具。