NGSCheckMate 项目教程
1. 项目的目录结构及介绍
NGSCheckMate 项目的目录结构如下:
NGSCheckMate/
├── Documentation/
│ └── pdf/
├── LICENSE
├── README.md
├── install_ncmfastq.sh
├── ncm.conf
├── ncm.py
├── ncm_fastq.py
├── ncm_test.py
├── ngscheckmate_fastq
├── test_datafiles.txt
└── vaf_ncm.py
目录结构介绍
- Documentation/: 包含项目的PDF文档,提供了详细的说明和使用指南。
- LICENSE: 项目的开源许可证文件,采用MIT许可证。
- README.md: 项目的自述文件,包含项目的基本信息和使用说明。
- install_ncmfastq.sh: 用于安装NGSCheckMate的脚本文件。
- ncm.conf: 项目的配置文件,用于设置BAM/VCF模块的参数。
- ncm.py: 项目的主启动文件,用于处理BAM/VCF数据。
- ncm_fastq.py: 用于处理FASTQ数据的启动文件。
- ncm_test.py: 项目的测试文件。
- ngscheckmate_fastq: 用于处理FASTQ数据的模块。
- test_datafiles.txt: 测试数据文件。
- vaf_ncm.py: 用于处理变异等位基因频率(VAF)的脚本文件。
2. 项目的启动文件介绍
ncm.py
ncm.py
是NGSCheckMate项目的主启动文件,用于处理BAM和VCF数据。它通过分析已知单核苷酸多态性(SNPs)的等位基因分数的相关性来识别来自同一人的样本。
使用方法
python ncm.py <-B | -V> <–d INPUT_DIR | -l INPUT_LIST_FILE> <-bed BED_FILE> <–O OUTPUT_DIR> [options]
-B | -V
: 指定输入文件类型(B: BAM, V: VCF)。-d DIR
: 包含输入文件的目录。-l FILE
: 列出输入文件和样本名称的文本文件。-bed FILE
: 包含选定SNP位置的BED文件。-O DIR
: 输出目录。
ncm_fastq.py
ncm_fastq.py
是用于处理FASTQ数据的启动文件。它通过分析选定SNP的侧翼序列来识别来自同一人的样本。
使用方法
python ncm_fastq.py <-l INPUT_LIST_FILE> <-pt PT_FILE> <–O OUTPUT_DIR> [options]
-l FILE
: 列出输入FASTQ文件和样本名称的文本文件。-pt FILE
: 包含选定SNP侧翼序列的二进制模式文件。-O DIR
: 输出目录。
3. 项目的配置文件介绍
ncm.conf
ncm.conf
是NGSCheckMate项目的配置文件,用于设置BAM/VCF模块的参数。如果输入文件是BAM/VCF文件,则需要配置此文件。
配置示例
REF=<path for the reference FASTA file>
SAMTOOLS=<path for samtools>
BCFTOOLS=<path for bcftools>
REF
: 参考基因组FASTA文件的路径。SAMTOOLS
: samtools工具的路径。BCFTOOLS
: bcftools工具的路径。
通过配置这些参数,可以确保NGSCheckMate在处理BAM/VCF数据时能够正确调用所需的工具和参考文件。