生信软件19 - vcftools高级用法技巧合辑

VCF文件格式

VCF 是一种常用的生物信息学文件格式,用于存储基因组中的遗传变异数据,特别是**单核苷酸多态性(SNP)小插入/缺失(Indel)**等变异。

vcftools软件安装

conda install vcftools -y

1. vcftools提取基因型

vcftools使用 --extract-FORMAT-info 选项来提取基因型信息。

vcftools --vcf sample.raw.vcf \
--extract-FORMAT-info GT --out sample

# 结果文件
# sample.GT.FORMAT

sample.GT.FORMAT

2. vcftools提取指定区域的变异信息

# 提取chr1 5M-10M区域的变异位点
vcftools --vcf sample.snp.vcf \
--chr chr1 --from-bp 5000000 --to-bp 10000000 \
--out sample --recode --recode-INFO-all

# 结果文件
# sample.recode.vcf

# 查看vcf结果文件
cat sample.recode.vcf|grep -v '^##'|less -S

参数说明:

–vcf :vcf文件
–chr :筛选区域所在的染色体
–form-bp :筛选区域的起始位置
–to-bp :筛选区域的终止位置
–out : 输出文件的前缀
–recode

sample.recode.vcf

3. vcftools对vcf文件进行划窗处理

对vcf文件进行滑窗处理,统计每个自定义大小窗口内的变异位点数量和多态性pi值。

# 对上述提取的sample.recode.vcf进行处理
vcftools --vcf sample.recode.vcf \
--window-pi 100 --window-pi-step 5

# 结果文件
# out.windowed.pi

参数说明:

–window-pi :指定窗口大小
–window-pi-step : 指定步长大小
out.windowed.pi

4. vcftools去除和保留vcf中指定样本

# 只保留sample01和sample02样本变异信息
vcftools --vcf sample.vcf --recode --recode-INFO-all \
--stdout  --indv  sample01 --indv  sample2  > out.vcf


# 去除sample01样本变异信息
vcftools --vcf sample.vcf --recode --recode-INFO-all \
--stdout  --remove-indv  sample01 > out.vcf


# 根据文本文件保留样本变异信息 
vcftools --vcf sample.vcf --recode --recode-INFO-all \
--stdout  --keep sample_name.txt   > out.vcf

# sample_name.txt内容
# sample01
# sample02

参数说明:

–keep : 保留样品
–remove : 删除样品

5. vcftools计算vcf文件的snp缺失率

vcftools --vcf sample.snp.vcf \
--missing-indv --out sample
# 结果文件
# sample.imiss

vcftools --vcf sample.snp.vcf \
--missing-site --out sample
# 结果文件
# sample.lmiss

参数说明:

–missing-indv :统计每个样品的缺失情况,生成文件后缀为“.imiss”
–missing-site :统计每个snp位点的缺失情况,生成文件后缀为“.lmiss”

sample.imiss文件: 第1列为样品名称,第2列为总的snp数,第4列为缺失的总数,最后一列为缺失率。
sample.imiss
sample.lmiss文件:前2列为snp所在染色体和位置,第3列为等位基因总数,第5列为缺失的总数,最后一列为缺失率。
sample.lmiss

6. vcftools在重测序中应用过滤实例

vcftools --gzvcf sample.vcf.gz --recode --recode-INFO-all --stdout \
--maf 0.05  --max-missing 0.4  --minDP 4  --maxDP 1000  \
--minQ 30 --minGQ 80 --min-alleles 2  --max-alleles 2 |gzip - > sample.clean.vcf.gz

生信软件文章推荐

生信软件1 - 测序下机文件比对结果可视化工具 visNano

生信软件2 - 下游比对数据的统计工具 picard

生信软件3 - mapping比对bam文件质量评估工具 qualimap

生信软件4 - 拷贝数变异CNV分析软件 WisecondorX

生信软件5 - RIdeogram包绘制染色体密度图

生信软件6 - bcftools查找指定区域的变异位点信息

生信软件7 - 多线程并行运行Linux效率工具Parallel

生信软件8 - bedtools进行窗口划分、窗口GC含量、窗口测序深度和窗口SNP统计

生信软件9 - 多公共数据库数据下载软件Kingfisher

生信软件10 - DNA/RNA/蛋白多序列比对图R包ggmsa

生信软件11 - 基于ACMG的CNV注释工具ClassifyCNV

生信软件12 - 基于Symbol和ENTREZID查询基因注释的R包(easyConvert )

生信软件13 - 基于sambamba 窗口reads计数和平均覆盖度统计

生信软件14 - bcftools提取和注释VCF文件关键信息

生信软件15 - 生信NGS数据分析强大的工具集ngs-bits

生信软件16 - 常规探针设计软件mrbait

生信软件17 - 基于fasta文件的捕获探针设计工具catch

生信软件18 - 基于docker部署Web版 Visual Studio Code

更多内容请关注公众号【生信与基因组学】,定期更新生信算法和编程、基因组学、统计学、分子生物学、临床检测和深度学习等内容。

  • 22
    点赞
  • 27
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

生信与基因组学

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值