Linux服务器丨重测序数据分析常用软件安装指南

重测序分析软件安装指南

重测序(resequencing)是指对已知基因组进行高通量测序,以检测个体或种群的遗传变异,从而研究基因组的结构和功能。与全基因组测序不同,重测序通常只对一部分基因组进行测序,例如外显子、基因区域、SNP位点等。


今天分享如何在服务器上部署安装重测序数据分析环境, Linux 服务器下进行重测序分析的常用软件包主要包括:

1. BWA:

用于将测序数据比对到参考基因组上,可以通过 conda 安装:

conda install -c bioconda bwa

2. Samtools:

用于处理 BAM/SAM 格式的测序数据,包括排序、去重、索引等操作,可以通过 conda 安装:

conda install -c bioconda samtools

3. Picard:

用于处理 BAM/SAM 格式的测序数据,包括去重、插入大小估计、重命名等操作,可以通过 conda 安装:

conda install -c bioconda picard

4. GATK:

用于进行变异检测和拼接等操作,可以通过 conda 安装:

conda install -c bioconda gatk

5. FastQC:

用于检查测序数据的质量,可以通过 conda 安装:

conda install -c bioconda fastqc

6. Trimmomatic:

用于对测序数据进行质量控制和去除低质量序列,可以通过 conda 安装:

conda install -c bioconda trimmomatic

7. HISAT2:

用于将 RNA-seq 数据比对到基因组上,可以通过 conda 安装:

conda install -c bioconda hisat2

8. StringTie:

用于进行转录本组装和定量分析,可以通过 conda 安装:

conda install -c bioconda stringtie

Linux环境部署结果测试

BWA

(WGS) [root@cloud WGS]# bwa
Program: bwa (alignment via Burrows-Wheeler transformation)
Version: 0.7.17-r1188
Contact: Heng Li <lh3@sanger.ac.uk>

Usage:   bwa <command> [options]

Command: index         index sequences in the FASTA format
         mem           BWA-MEM algorithm
         fastmap       identify super-maximal exact matches
         pemerge       merge overlapping paired ends (EXPERIMENTAL)
         aln           gapped/ungapped alignment
         samse         generate alignment (single ended)
         sampe         generate alignment (paired ended)
         bwasw         BWA-SW for long queries

         shm           manage indices in shared memory
         fa2pac        convert FASTA to PAC format
         pac2bwt       generate BWT from PAC
         pac2bwtgen    alternative algorithm for generating BWT
         bwtupdate     update .bwt to the new format
         bwt2sa        generate SA from BWT and Occ

samtools

(WGS) [root@cloud WGS]# samtools
Program: samtools (Tools for alignments in the SAM format)
Version: 1.6 (using htslib 1.6)

Usage:   samtools <command> [options]

Commands:
  -- Indexing
     dict           create a sequence dictionary file
     faidx          index/extract FASTA
     index          index alignment

  -- Editing
     calmd          recalculate MD/NM tags and '=' bases
     fixmate        fix mate information
     reheader       replace BAM header
     rmdup          remove PCR duplicates
     targetcut      cut fosmid regions (for fosmid pool only)
     addreplacerg   adds or replaces RG tags
     markdup        mark duplicates

通过新建一个conda虚拟环境,然后在环境中安装重测序分析所用的软件,能够避免软件的冲突造成的问题,而且方便再不同的机器之间灵活的切换环境。

重测序可以应用于许多生物学研究领域,如人类疾病研究、植物遗传改良、动物育种等。通过对不同个体或种群的重测序数据进行比较和分析,可以找到与性状相关的遗传变异,揭示基因组的遗传多样性和进化历史,推动生物学研究的发展。

彩蛋

推荐一个重测序分析shell脚本,来自github上某大佬(https://github.com/biomarble/onekeyReseq/blob/main/onekeyReseq),通过这个脚本,能够快捷方便的调用各项软件,自动进行分析,解放双手,提高效率。

echo "$GATKCOMMAND SelectVariants -V $PWD/2.SNP/2.cohort/cohort.vcf -select-type SNP -O $PWD/2.SNP/3.filt/raw.snps.vcf.gz" >commands/2.SNP/s5.Select.sh
echo "$GATKCOMMAND SelectVariants -V $PWD/2.SNP/2.cohort/cohort.vcf -select-type INDEL -O $PWD/2.SNP/3.filt/raw.indel.vcf.gz " >>commands/2.SNP/s5.Select.sh
echo "$GATKCOMMAND VariantFiltration -V $PWD/2.SNP/3.filt/raw.snps.vcf.gz -O $PWD/2.SNP/3.filt/snps.vcf.gz -filter \"QD < 2.0\" --filter-name \"QD2\" -filter \"QUAL < 30.0\" --filter-name \"QUAL30\" -filter \"SOR > 3.0\" --filter-name \"SOR3\" -filter \"FS > 60.0\" --filter-name \"FS60\" -filter \"MQ < 40.0\" --filter-name \"MQ40\" -filter \"MQRankSum < -12.5\" --filter-name \"MQRankSum-12.5\" -filter \"ReadPosRankSum < -8.0\" --filter-name \"ReadPosRankSum-8\" " >commands/2.SNP/s6.Filter.sh
echo "$GATKCOMMAND VariantFiltration -V $PWD/2.SNP/3.filt/raw.indel.vcf.gz -O $PWD/2.SNP/3.filt/indel.vcf.gz -filter \"QD < 2.0\" --filter-name \"QD2\" -filter \"QUAL < 30.0\" --filter-name \"QUAL30\" -filter \"FS > 200.0\" --filter-name \"FS200\" -filter \"ReadPosRankSum < -20.0\" --filter-name \"ReadPosRankSum-20\" " >>commands/2.SNP/s6.Filter.sh
echo "vcftools --gzvcf $PWD/2.SNP/3.filt/snps.vcf.gz --out $PWD/2.SNP/3.filt/final.snp --recode --remove-filtered-all " >commands/2.SNP/s7.extract.sh
echo "vcftools --gzvcf $PWD/2.SNP/3.filt/indel.vcf.gz --out $PWD/2.SNP/3.filt/final.indel --recode --remove-filtered-all " >>commands/2.SNP/s7.extract.sh
echo "snpEff eff -dataDir $PWD -configOption genome.genome=\"genome\" genome $PWD/2.SNP/3.filt/final.snp.recode.vcf -ud 0 -noLog -noStats -geneId -o gatk >$PWD/2.SNP/snp.anno.vcf ">commands/2.SNP/s8.anno.sh
echo "snpEff eff -dataDir $PWD -configOption genome.genome=\"genome\" genome $PWD/2.SNP/3.filt/final.indel.recode.vcf -ud 0 -noLog -noStats -geneId -o gatk >$PWD/2.SNP/indel.anno.vcf" >>commands/2.SNP/s8.anno.sh
echo "$GATKCOMMAND MergeVcfs -I $PWD/2.SNP/indel.anno.vcf -I $PWD/2.SNP/snp.anno.vcf -O $PWD/2.SNP/snp.indel.anno.vcf && bcftools annotate --set-id +'%CHROM\_%POS' $PWD/2.SNP/snp.indel.anno.vcf >$PWD/2.SNP/snp.indel.anno.addid.vcf " >commands/2.SNP/s9.merge.sh
parallelrun "commands/1.mapping/s3.MarkDup.sh"
parallelrun "commands/2.SNP/s1.HC.sh"
parallelrun "commands/2.SNP/s2.CombineGVCFs.sh"
parallelrun "commands/2.SNP/s3.GenotypeGVCF.sh"
parallelrun "commands/2.SNP/s4.CombineVCFs.sh"
parallelrun "commands/2.SNP/s5.Select.sh"
parallelrun "commands/2.SNP/s6.Filter.sh"
parallelrun "commands/2.SNP/s7.extract.sh"
parallelrun "commands/2.SNP/s8.anno.sh"

本文由mdnice多平台发布

  • 0
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
linux 64位平台 静态编译的 应可以直接用。 生物信息 测序 小软件 游戏 随着测序技术的持续革新,新一代测序技术的产生降低了测序成本并提高了测序通量,使得针对几百上千的样品进行DNA测序成为可能。其次当前模式作物和要经济物种的基因组大多已经被测序,越来越多的科研人员转测序研究。再次近几年很多研究员已经在相关杂志发表了很多个体测序的研究了,个体测序研究已经相当深入,很难有质的飞跃和要的发现。最后对一个好的群体的研究对后期的更深入的研究十分有意义,如对组自交系群体进行测序,可以快速构建遗传图谱,寻找组热点和定位数量性状位点的精细范围;再如而对栽培群体和野生群体测序,通过全基因组的多态性比较,则可以快速寻找到受人工驯化受到选择的区域和相关基因。基于上面以及其它种种原因,群体测序的研究越来越受到视了,其中群体SNP检测和基因型判断则显得尤其要,目前检测群体SNP的方法并不成熟,大多由个体SNP的基因型整合构成群体SNP的基因型,不仅带入了不少假阳SNP和位点基因型判断不准,而且很多群体中稀有SNP并没有被检测出来,这些都会后期生物意义的探究造成一定的干扰。本论文主要研究是在群体样品过多,测序大数据过大,计算机资源有限情况下,提供了用于群体SNP位点检测及判断基因型的新算法和新模型,使之更高效更准确检测出群体SNP位点以及判断出各个体在该位点的基因型。主要的研究结果如下: (1)在研究群体SNP的检测模型,最终实现了两种检测模型,即最大似然法模型和贝叶斯二项混合模型。并基于这两种检测模型的理论,在Linux平台实现其检测的功能,开发对应的软件GLFmuti和PopSNP,通过和现在的软件比较和发展趋势,新开发的软件检测结果大有提高并将得到广泛应用。 (2)为了减少机器误差以及减少各种人为操作不当,提高群体SNP的检测的准确度,本论文同时为前期过滤和比对各过程等过程提供相应的分析工具。 (3)本论文在检测群体SNP和判断基因型的同时,同时开发其它变异检测功能,并最终从原始数据到变异检测的每一个分析步骤都提供相应功能模块,最终设计提供出一套标准的分析流程,实现相关分析标准化。 这儿就是 测序 分析的软件工具包 和对应的流程 。 相关论文可以到知网搜下载 ./iTool -h 看help 共有10 部分组成,别如下: Fatools Tools For Fasta Fqtools Tools For Fastq SOAPtools Tools For SOAP CNStools Tools For CNS Xamtools Tools For Sam,Bam Gfftools Tools For Gff Formtools Tools For Form convert Filetools Tools For File Othertools Tools For Other Gametools Tools For Game

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

生信分析笔记

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值