师兄推荐这篇文章,按照里面的命令,先做一套转录组分析。
参考文献:
Pertea M, Kim D,Pertea G M, et al. Transcript-level expression analysis of RNA-seq experimentswith HISAT, StringTie and Ballgown.[J]. Nature Protocols, 2016, 11(9):1650.
全文链接:http://www.ccb.jhu.edu/people/infphilo/data/nprot.2016.095.pdf
我是借鉴的简书上的一篇博文,https://www.jianshu.com/p/38c2406367d5,谢谢这个博主啦!
数据 :https://pan.baidu.com/s/1aX93Q65Dit3iqslRWkQcsw
genes 针对基因组的注释文件.gtf
genome 染色体X的序列文件 chrX.fa
geuvadis_phenodata.csv
mergelist.txt 以上两个都是之前博主创建表明数据关系的文件
indexes hisat2对于染色体X的indexes文件,1~8.ht2 索引文件
samples 数据 fastq.gz
文章背景: 见文章
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
转录组分析 背景知识:
从原始RNA-Seq数据着手,质控——建立索引文件——比对、拼接、排序——初组装——合并——计算表达量,并输出为baoogown格式——进行差异分析——作图,这里输出结果包括基因list、转录本,及每个样本的表达量,能表现差异表达基因的表格 并完成显著性计算。
在R里使用ballgown处理需要得到: #了解一下就OK
1. 表型数据 关于样本的信息
2. 表达数据 标准化和未标准化的关于外显子,junction,转录本,基因的表达数量
3. 基因信息 有关外显子,junction,转录本,基因的坐标以及注释信息
大多数差异表达分析都会包括一下几个步骤: #需要着重理解
1. 数据可视化和检查
2. 差异表达的统计分析
3. 多重检验校正
4. 下游检查和数据summary
ballgown的使用: #分析过程的难点在ballgown,提前理解有助于后面,现在回过头来看还是很懵逼……
1. 数据的读入
2. 预测丰度的检查:以FPKM为单位的丰度预测将会根据library size进行标准化。FPKM(fragments per kilobase of transcript per million mapped reads)
3. 使用线性模型进行差异表达分析,由于FPKM对于转录本解读过于曲解,所以这里需要使用log转化处理数据,随后再使用线性模型进行差异分析。
4. ballgown可以对于time-course和fixed_conduction数据进行差异分析,但是无法避免批次效应带来的误差。# 使用stattest功能可以指定任何已知的confounder
5. ballgown 可以帮助你在基因、转录本、外显子、junction水平上进行差异分析。
6. 结果会以表格形式展出,如果样本多还有p值和q值。
7.