HISAT2序列比对

HISAT2是一种快速、灵敏的比对程序,用于将下一代测序读数(全基因组、转录组和外显子组测序数据)与普通人群(以及单个参考基因组)进行比对。

1. 建立索引

建立索引时间长,一般不需要自己建立,常见的基因组索引可以在这里下载。

Usage: hisat2-build [options]* <reference_in> <ht2_index_base>

# 建立基因组索引
hisat2-build hg38.fa  ht2_hg38

# 建立基因组+转录组+SNP索引
hisat2-build -p 8 genome.fa --snp genome.snp --ss genome.ss --exon genome.exon genome_snp_tran_index

注:-p  线程数;--snp,--ss, --exon    后面的文件分别通过 hisat2的python脚本生成。

如:​​​​​​​

hisat2_extract_exons.py hg19.refGene.gtf >hg19.exon

hisat2_extract_splice_sites.py hg19.refGene.gtf >hg19.ss

hisat2_extract_snps_haplotypes_UCSC.py hg19_snp151.txt >hg19.snp

Use hisat2_extract_snps_haplotypes_UCSC.py (in the HISAT2 package) to extract SNPs and haplotypes from a dbSNP file (e.g. http://hgdownload.soe.ucsc.edu/goldenPath/hg38/database/snp144Common.txt.gz). or hisat2_extract_snps_haplotypes_VCF.py to extract SNPs and haplotypes from a VCF file (e.g. ftp://ftp.1000genomes.ebi.ac.uk/vol1/ftp/release/20130502/supporting/GRCh38_positions/ALL.chr22.phase3_shapeit2_mvncall_integrated_v3plus_nounphased.rsID.genotypes.GRCh38_dbSNP_no_SVs.vcf.gz).

如果你使用--snp、-ss和/或--exon,hisat2构建将需要大约200GB的内存用于人类基因组大小,因为索引构建涉及到一个图形构建。否则,您将能够使用8GB RAM在桌面上构建索引。

2. 查看索引

Usage: hisat2-inspect hisat2-inspect [options]* <ht2_base>

hisat2-inspect ht2_hg38

hisat2-inspect -n ht2_hg38 # 打印参考基因组名称

hisat2-inspect -a ht2_hg38 > hg38.fa # 输出基因组序列,重定向到文件

hisat2-inspect  --exon ht2_hg38  # 打印外显子

hisat2-inspect -ss ht2_hg38 # 打印剪切位点

hisat2-inspect --ss-all ht2_hg38 # 打印所有的剪切位点

hisat2-inspect --snp ht2_hg38 #  打印snp

hisat2-inspect -s ht2_hg38 #  打印summary

2. 比对

Usage:

  hisat2 [options]* -x <ht2-idx> {-1 <m1> -2 <m2> | -U <r>} [-S <sam>]

# SE
hisat2 -p 4 -x genome_index -U test_reads.fq -S eg1.sam
# PE
hisat2 -p 4 -x genome_index -1 test_reads_1.fq -2 test_reads_2.fq -S eg2.sam

参考:

​​​​​​​HISAT2 manual

  • 0
    点赞
  • 15
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
HISAT2 是一款广泛使用的 RNA-seq 数据比对软件,可以将 RNA-seq 数据比对到参考基因组上。为了生成正确的 HISAT2 比对代码,您需要考虑以下几个方面: 1. 参考基因组文件:首先需要准备好参考基因组文件,可以是 FASTA 格式的基因组序列文件,也可以是 HISAT2 索引文件。如果没有可用的参考基因组文件,可以从 NCBI 等公共数据库下载。 2. RNA-seq 数据:需要准备好 RNA-seq 数据文件,可以是单端或双端测序数据,可以是 FASTQ 格式的数据文件,也可以是 SAM 或 BAM 格式的对齐结果文件。 3. HISAT2 命令行参数:在运行 HISAT2 时,需要指定一些命令行参数,以控制比对过程中的各个步骤。例如,可以使用 "-x" 参数来指定参考基因组索引文件,使用 "-U" 参数来指定单端或双端测序数据文件,使用 "-S" 参数来指定输出的 SAM 文件名,还可以使用其他参数来控制比对的参数和输出格式等。 4. 常用参数设置:在实际使用过程中,需要根据具体的数据和分析任务,设置一些常用的参数。例如,可以设置 "-q" 参数来指定 FASTQ 格式的输入数据,使用 "-p" 参数来指定线程数,使用 "--no-spliced-alignment" 参数来禁用剪接比对等。 下面是一个简单的 HISAT2 比对示例: ``` hisat2 -x ref_genome -U reads.fastq -S output.sam -p 4 ``` 该命令将使用参考基因组索引文件 "ref_genome",对单端测序数据文件 "reads.fastq" 进行比对,输出结果到 SAM 文件 "output.sam" 中,并使用 4 个线程来加速比对过程。 希望这些信息能够帮助您生成正确的 HISAT2 比对代码。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值