edger和deseq2_简单使用DESeq2/EdgeR做差异分析

DESeq2和EdgeR都可用于做基因差异表达分析,主要也是用于RNA-Seq数据,同样也可以处理类似的ChIP-Seq,shRNA以及质谱数据。

这两个都属于R包,其相同点在于都是对count data数据进行处理,都是基于负二项分布模型。因此会发现,用两者处理同一组数据,最后在相同阈值下筛选出的大部分基因都是一样的,但是有一部分不同应该是由于其估计离散度的不同方法所导致的。

DESeq2的使用方法:

输入矩阵数据,行名为sample,列名为gene;DESeq2不支持无生物学重复的数据,因此我选择了2个样本,3个生物学重复的数据;并对count data取整(经大神指点,这里需要说明下,我的测试数据readcount是RSEM定量的结果,并不是常见的htseq-count的结果,所以count值会有小数点,而DESeq2包不支持count数有小数点,所以这里需要round取整)。 database_all

设置分组信息以及构建dds对象 condition

使用DESeq函数进行估计离散度,然后进行标准的差异表达分析,得到res对象结果 dds

最后设定阈值,筛选差异基因,导出数据 table(res$padj <0.05)res

EdgeR的使用方法:

跟DESeq2一样,EdgeR输入矩阵数据,行名为sample,列名为gene;DESeq2不支持无生物学重复的数据,因此我选择了2个样本,3个生物学重复的数据。 exprSet_all

设置分组信息,去除低表达量的gene以及做TMM标准化 exprSet 1)>=2,]exprSet

使用qCML(quantile-adjusted conditional maximum likelihood)估计离散度(只针对单因素实验设计) exprSet

寻找差异gene(这里的exactTest函数还是基于qCML并且只针对单因素实验设计),然后按照阈值进行筛选即可 et

Summary

以上我主要针对单因素两两比较组进行差异分析,其实DESeq2和EdgeR两个R包都可以对多因素进行差异分析。

DESeq2修改以上代码的分组信息design参数以及在差异分析results函数中添加所选定的分组因素,其他代码基本一样,具体参照DESeq2手册

EdgeR则需要用Cox-Reid profile-adjusted likelihood (CR)方法来估算离散度,y

  • 0
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
使用 HISAT2 工具对 RNAseq 数据进行比对和分析的基本步骤如下: 1. 准备好参考基因组的 HISAT2 索引文件和 RNAseq 数据,可以使用 HISAT2-build 工具创建索引文件,使用 fastq-dump 工具下载 RNAseq 数据。 2. 使用 HISAT2 工具将 RNAseq 数据比对到参考基因组上,生成 SAM/BAM 格式的比对结果。HISAT2 的命令格式如下: ``` hisat2 [options] -x <ht2-index> -U <reads.fastq> -S <samfile> ``` 其中,-x 选项指定 HISAT2 索引文件的路径,-U 选项指定 RNAseq 数据的路径,-S 选项指定输出的 SAM 格式文件的路径。 例如,假设 HISAT2 索引文件的前缀为 genome,RNAseq 数据的文件名为 sample.fastq,生成的 SAM 格式文件的文件名为 sample.sam,则比对命令如下: ``` hisat2 -x genome -U sample.fastq -S sample.sam ``` 3. 将 SAM 格式的比对结果转换成 BAM 格式,并进行排序和索引。可以使用 SAMtools 工具来完成这个过程,命令如下: ``` samtools view -bS <samfile> | samtools sort -o <sorted.bam> samtools index <sorted.bam> ``` 其中,<samfile> 是 HISAT2 生成的 SAM 格式文件的路径,<sorted.bam> 是排序后的 BAM 格式文件的路径。 4. 使用 StringTie 工具进行转录本重构和定量分析。StringTie 可以从 BAM 格式的比对结果中重构转录本,并进行定量分析。命令如下: ``` stringtie <sorted.bam> -G <annotation.gtf> -o <output.gtf> ``` 其中,<sorted.bam> 是排序后的 BAM 格式文件的路径,<annotation.gtf> 是已知基因组注释的 GTF 格式文件的路径,<output.gtf> 是 StringTie 输出的 GTF 格式文件的路径。 例如,假设已知基因组注释的 GTF 文件名为 annotation.gtf,StringTie 输出的 GTF 文件名为 output.gtf,则命令如下: ``` stringtie sorted.bam -G annotation.gtf -o output.gtf ``` 5. 根据需要进行其他分析,比如基因差异表达分析、富集分析等等。可以使用常见的生物信息学分析工具,比如 DESeq2edgeR、GOseq 等等。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值