edger和deseq2_转录组分析(二)Hisat2+DESeq2/EdgeR

本文详细介绍了RNA-seq数据分析的流程,包括使用Hisat2进行序列比对,SAMtools进行数据处理,以及DESeq2和EdgeR进行基因差异表达分析。重点讲解了Hisat2的安装、索引构建、比对和输出结果解析,以及DESeq2和EdgeR的使用方法。
摘要由CSDN通过智能技术生成

一、序列比对

在2016年的一篇综述A survey of best practices for RNA-seq data analysis,提到目前有三种RNA数据分析的策略。那个时候的工具也主要用的是TopHat,STAR和Bowtie.其中TopHat目前已经被它的作者推荐改用HISAT进行替代。

1. Hisat2教程

1.1 下载安装

#conda直接安装

conda install hisat2

#源码下载安装

wget wget ftp://ftp.ccb.jhu.edu/pub/infphilo/hisat2/downloads/hisat2-2.1.0-source.zip

unzip hisat2-2.1.0-source.zip

make

1.2 构建index

直接下载现有的insex或通过Hisat2的方法进行创建

# 其实hisat2-buld在运行的时候也会自己寻找exons和splice_sites,但是先做的目的是为了提高运行效率

extract_exons.py gencode.v26lift37.annotation.sorted.gtf > hg19.exons.gtf &

extract_splice_sites.py gencode.v26lift37.annotation.gtf > hg19.splice_sites.gtf &

# 建立index, 必须选项是基因组所在文件路径和输出的前缀

hisat2-build --ss hg19.splice_sites.gtf --exon hg19.exons.gtf genome/hg19/hg19.fa hg19

1.3正式比对

hisat2基本用法就是hisat2 [options]* -x {-1 -2 | -U } [-S ],基本就是提供index的位置,PE数据或者是SE数据存放位置。然而其他可选参数却是进阶的一大名堂。新手就用默认参数呗。

hisat2 --dta -p 6 --max-intronlen 5000000 -x Oryza_sativa.IRGSP-1.0.genome -1 C1-1_good_1.fq -2 C1-1_good_2.fq -S C1-1.HISAT_aln.sam >hisat2_running.log 2>&1

1.4 Hisat2输出结果

比对之后会输出如下结果,解读一下就是全部数据都是100%的,2.88%的配对数据一次都没有比对,94.20%的数据比是唯一比对,2.92%是多个比对。然后如果不按照顺序来,有4.96%的比对。之后把剩下的部分用单端数据进行比对的话,65.57%数据没比对上,33.23%的数据比对一次,1.20%比对超过一次。零零总总的加起来是98.20%的比对。

20182824 reads; of these:

20182824 (100.00%) were paired; of these:

581893 (2.8

  • 0
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值