hisat2

构建索引

1.下载参考基因组序列 fasta 或 gtf文件 注意版本、物种

#下载fasta文件,在ensemble数据库中下载对应版本和物种的fasta文件 下载primary dna即可
nohup wget -c https://ftp.ensembl.org/pub/release-102/fasta/mus_musculus/dna/Mus_musculus.GRCm38.dna.primary_assembly.fa.gz >mm10.fa.log &

#解压 注意下载数据是否完整
nohup gunzip Mus_musculus.GRCm38.dna.primary_assembly.fa.gz >unzip.log &

2.构建索引

#索引不是一个文件是文件名前缀
mkdir Hisat2Index
hisat2-build -p 10 -f Mus_musculus.GRCm38.dna.primary_assembly.fa    Hisat2Index/mm10.dna

3.比对

## 单个样本比对,步骤分解 索引不是一个文件是文件名前缀
index=Hisat2Index/mm10.dna
inputdir=data/cleandata/trim_galore/
outdir=Mapping/Hisat2

hisat2 -p 5  -x  ${index} \
	   -1 ${inputdir}/SRR1039510_1_val_1.fq.gz \
       -2 ${inputdir}/SRR1039510_2_val_2.fq.gz \
       -S ${outdir}/SRR1039510.Hisat_aln.sam

4.sam转bam文件

#sam转bam
samtools sort -@ 5 -o SRR1039510.Hisat_aln.sorted.bam SRR1039510.Hisat_aln.sam
#bam 文件是二进制文件 查看方式
samtools view -h SRR1039510.Hisat_aln.sorted.bam | less -S

5.# 多个样本批量进行比对,排序,建索引
 

# Hisat.sh内容: 注意命令中的-,表示占位符,表示|管道符前面的输出。
vim Hisat.sh
index=/home/Hisat2Index/GRCh38.dna
inputdir=$HOME/project/data/cleandata/trim_galore/
outdir=$HOME/project/Mapping/Hisat2

cat ../../data/cleandata/trim_galore/ID | while read id
do
hisat2 -p 5 -x ${index} -1 ${inputdir}/${id}_1_val_1.fq.gz -2 ${inputdir}/${id}_2_val_2.fq.gz 2>${id}.log  | samtools sort -@ 3 -o ${outdir}/${id}.Hisat_aln.sorted.bam - 
done

# 统计比对情况
multiqc -o ./ SRR*log

# 提交后台运行
nohup sh Hisat.sh >Hisat.log &

# 统计比对情况  可视化 可下载后查看
multiqc -o ./ SRR*log

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

xiaoxiang学生信

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值