生信软件45 - 遗传变异分析工具GEMINI

1. GEMINI简介

GEMINI(Genome Mining)是用于遗传变异分析的生物信息学工具,适用于家系新生突变分析、常染色体显性遗传突变分析、常染色体隐性遗传突变分析、群体分析、成对肿瘤样本分析。通过将 VCF 文件 转换为轻量级数据库(SQLite),查询速度比传统文本处理快10-100倍,预集成ClinVar、dbSNP、gnomAD、CADD等30+种功能/人群数据库,支持高效查询和遗传模式筛选。其核心优势在于结合家系结构信息 ,快速识别符合特定遗传模型的致病突变。

2. 软件安装

官网教程: https://gemini.readthedocs.io/en/latest/content/installation.html

# centos/ubuntu conda安装
wget https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.sh
bash Miniconda3-latest-Linux-x86_64.sh -b -p $HOME/miniconda3
echo 'export PATH="$HOME/miniconda3/bin:$PATH"' >> ~/.bashrc
source ~/.bashrc
conda init bash

# 创建conda环境
conda create -n gemini python=3.7
conda activate gemini

# 安装gemini
wget https://github.com/arq5x/gemini/raw/master/gemini/scripts/gemini_install.py

# 创建tool和data存储目录
mkdir {tool,data}

python gemini_install.py tool data

# 查看版本
gemini --version

3. 数据库安装

需下载自带10多个GB的数据库及CADD(39G)和GERP(7G)两个数据库。

# 全套数据库(建议服务器安装)
gemini update --dataonly --extra cadd_score --extra gerp_bp

# 最小化安装(测试用)
gemini update --dataonly --no-cdata

# 下载时中断,恢复下载(支持断点续传)
# gemini update --dataonly --continue

gemini --annotation-dir

4. 测试

# 下载测试vcf
wget https://raw.githubusercontent.com/arq5x/gemini/master/test/test.snpeff.vcf

# 导入vcf, 4线程
gemini load -v test.snpeff.vcf -t snpEff --cores 4 test.db

gemini stats test.db

5. 基本用法

gemni输入文件支持VCF和PED文件,分析前需要将VCF导入SQL数据库,VCF接受注释或者未注释的文件,对于未注释的VCF文件,gemini可调用VEP或者snpEff进行注释。

5.1 ROH(Runs of Homozygosity,纯合性片段)分析

ROH指连续的同源染色体区域在子代中完全纯合的现象,通常由近亲繁殖或群体遗传瓶颈导致。ROH区域内若包含隐性致病突变,纯合状态会直接引发疾病(如囊性纤维化、苯丙酮尿症),ROH长度>10 Mb 时,每增加1 Mb,隐性遗传病风险上升约3-5%;ROH导致的多个纯合位点共同影响疾病(如精神分裂症、先天性心脏病)等。

ROH风险评估指标

基因组总ROH长度>500 Mb,提示严重近亲繁殖或遗传病高风险;
单条染色体ROH最大长度>20 Mb,可能与隐性致病突变相关。

gemini roh \
--min-snps 50 \  # 包含最小的SNP个数
--min-gt-depth 20 \  # 最小基因型深度
--min-size 1000000 \  # 最小的ROH长度
-s sample \  # 样本名称
test.db

5.2 孟德尔遗传模式分析

(1)常染色体隐性遗传(AR)

筛选双亲携带、患者纯合/复合杂合的变异(如囊性纤维化)。

gemini autosomal_recessive -v test.db > ar_variants.txt

(2)常染色体显性遗传(AD)

识别患者新发或父母传递的显性突变(如亨廷顿病)。

gemini autosomal_dominant -v test.db > ad_variants.txt

(3)X连锁遗传

定位X染色体上的隐性/显性突变(如血友病、杜氏肌营养不良)。

gemini x_linked -v test.db > xlinked_variants.txt

(4)新生突变(De novo)检测

识别患者携带但父母不存在的突变(如自闭症相关变异)。

gemini de_novo --min-gq 20 test.db > denovo.txt

5.2 复合杂合突变分析

发现同一基因的两个等位基因分别携带不同有害突变(如遗传性耳聋)。

gemini comp_hets --columns "gene,impact" test.db > chets.txt

5.3 表型驱动筛选

联合 OMIMClinVar 数据库,筛选与疾病表型匹配的已知致病变异。

gemini query -q "SELECT * WHERE clinvar_sig LIKE '%pathogenic%'" test.db > known_pathogenic.txt

5.4 群体频率过滤

排除高频变异(如基于gnomAD频率)。

gemini query -q "SELECT * WHERE (gnomad_af < 0.001 OR gnomad_af IS NULL)" test.db > rare_variants.txt

5.5 自定义复杂查询

通过SQL语法灵活筛选(如影响高危害性错义变异的罕见变异)。

gemini query -q "SELECT chrom,start,end,gene,impact FROM variants 
      WHERE impact_severity='HIGH' 
      AND filter IS NULL 
      AND gnomad_af < 0.01" test.db > filtered.tsv

生信软件文章推荐

生信软件1 - 测序下机文件比对结果可视化工具 visNano

生信软件2 - 下游比对数据的统计工具 picard

生信软件3 - mapping比对bam文件质量评估工具 qualimap

生信软件4 - 拷贝数变异CNV分析软件 WisecondorX

生信软件5 - RIdeogram包绘制染色体密度图

生信软件6 - bcftools查找指定区域的变异位点信息

生信软件7 - 多线程并行运行Linux效率工具Parallel

生信软件8 - bedtools进行窗口划分、窗口GC含量、窗口测序深度和窗口SNP统计

生信软件9 - 多公共数据库数据下载软件Kingfisher

生信软件10 - DNA/RNA/蛋白多序列比对图R包ggmsa

生信软件11 - 基于ACMG的CNV注释工具ClassifyCNV

生信软件12 - 基于Symbol和ENTREZID查询基因注释的R包(easyConvert )

生信软件13 - 基于sambamba 窗口reads计数和平均覆盖度统计

生信软件14 - bcftools提取和注释VCF文件关键信息

生信软件15 - 生信NGS数据分析强大的工具集ngs-bits

生信软件16 - 常规探针设计软件mrbait

生信软件17 - 基于fasta文件的捕获探针设计工具catch

生信软件18 - 基于docker部署Web版 Visual Studio Code

生信软件19 - vcftools高级用法技巧合辑

生信软件20 - seqkit+awk+sed+grep高级用法技巧合辑

生信软件21 - 多线程拆分NCBI-SRA文件工具pfastq-dump

生信软件22 - 测序数据5‘和3‘端reads修剪工具sickle

生信软件23 - Samtools和GATK去除PCR重复方法汇总

生信软件24 - 查询物种分类学信息和下载基因组TaxonKit和ncbi-genome-download

生信软件25 - 三代测序数据灵敏比对工具ngmlr

生信软件26 - BWA-MEM比对算法性能更好的bwa-mem2

生信软件27 - 基于python的基因注释数据查询/检索库mygene

生信软件28 - fastq与bam的reads数量计算与双端fastq配对检测工具fastq-pair

生信软件29 - 三代数据高效映射精确的长读段比对工具mapquik

生信软件30 - 快速单倍型分析工具merlin

生信软件31 - Bcftools操作VCF/BCF文件高级用法合集

生信软件32 - 变异位点危害性评估预测工具合集

生信软件33 - Wgsim生成双端(PE) fastq模拟数据

生信软件34 - 大幅提升Python程序执行效率的工具Pypy

生信软件35 - AI代码编辑器Cursor

生信软件36 - SAM/BAM/CRAM文件插入SNV/INDEL/SV工具Bamsurgeon

生信软件37 - 基于测序reads变异进行单倍型分型工具WhatsHap

生信软件38 - 基因型填充软件IMPUTE2

生信软件39 - GATK最佳实践流程重构,提高17倍分析速度的LUSH流程

生信软件40 - bedtools经典使用方法合集

生信软件41 - GATK经典使用方法合集

生信软件42 - 科研绘图R包神器tidyplots

生信软件43 - iGenomes批量下载Ensembl、NCBI、GATK和UCSC参考基因组和注释文件资源

生信软件44 - 比PyVCF更高效的VCF解析Python库cyvcf2

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

生信与基因组学

每一份鼓励是我坚持下去动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值