【基因表达数据处理】从RAW测序数据,到FPKM的过程

转载 2017年10月03日 15:05:27
FPKM, Fragments Kilobase of exon model per millon mapped reads, which can be used to indicate the expression (abundance) characteristics of genes. Now I will describe operation about obtaining interested gene FPKM value.

1.Software Download

1).fastq-dump: convert sra file to fastq file.

 website:http://www.ncbi.nlm.nih.gov/Traces/sra/sra.cgi?view=software 

2).bowtie:an ultrafast and memory efficient tool for aligning sequencing reads to long reference sequences.

 website:http://bowtie-bio.sourceforge.net/bowtie2/index.shtml 

3).cufflinks:assembles transcripts, estimates their abundances, and tests for differential expression and regulation in RNA-Seq samples.

 website:http://cufflinks.cbcb.umd.edu/ 

4).gffread: convert gff3 file to gtf file.

 website:http://cufflinks.cbcb.umd.edu/ (This program is included with cufflinks package)

2. Operation

1) Download genome.fa and genes.gff3 file from genome website; Download sra file from NCBI

2) Format conversion

 $ fastq-dump -I --split-files SRR123456789.sra # convert sra file to fastq file

 $ gffread -E genes.gff3 -o genes.gtf # convert gff3 file to gtf file

3) Index files

 $bowtie2-build genome.fa genome

4) Alignment

 $bowtie2 -x genome -1 SRR123456789_1.fastq -2 SRR123456789_2.fastq -S SRR123456789.sam

 $samtools view -bS SRR123456789.sam > SRR123456789.bam

 $samtools sort SRR123456789.bam SRR123456789

5) FPKM values

 $cufflinks SRR123456789.bam -G genes.gtf -o result

After these operations, we can extract FPKM values from genes.frkm_tracking file based on gene ID.

gflod求基因表达值 FPKM

http://www.cnblogs.com/emanlee/p/4316581.html 先maker下来再说,回头看 reads  mapping 到基因组之后,会生成好多文件,其中包括bam格式...
  • lixiangyong123
  • lixiangyong123
  • 2016-07-29 13:24:37
  • 836

数据预处理

参考: http://mp.weixin.qq.com/s?__biz=MjM5MTQzNzU2NA==&mid=2651647587&idx=2&sn=d0d3a69ce141f4015d6e032...
  • xbmatrix
  • xbmatrix
  • 2017-03-23 20:59:26
  • 552

RNA-seq中的基因表达量计算和表达差异分析

差异分析的步骤: 1)比对; 2) read count计算; 3) read count的归一化; 4)差异表达分析; 背景知识: 1)比对: 普通比对: BWA, SOAP 开大GAP比对: ...
  • sinat_38163598
  • sinat_38163598
  • 2017-06-10 22:23:08
  • 7824

【基因表达数据处理】从RAW测序数据,到FPKM的过程

FPKM, Fragments Kilobase of exon model per millon mapped reads, which can be used to indicate the ex...
  • guomutian911
  • guomutian911
  • 2017-10-03 15:05:27
  • 495

R绘制热图

欢迎关注 生信宝典 公众号,阅读系列文章http://mp.weixin.qq.com/s/lKrhvYrwn93esC6MA3bHWwRstudio基础R语言是比较常用的统计分析和绘图语言,拥有强大...
  • qazplm12_3
  • qazplm12_3
  • 2017-07-06 08:40:44
  • 4509

基因表达量计算与差异表达分析常见问题

问 1:在没有重复实验的情况下,用 RPKM 要怎么做检验呢? 答:如果要用泊松分布做差异分析模型的话,必须要用 reads count 的。只有 RPKM值的话,可以用 RPKM 的公式反推 re...
  • sinat_38163598
  • sinat_38163598
  • 2017-06-10 22:30:19
  • 5195

转录组数据饱和度评估方法

 转自:http://www.biodiscover.com/group/topic/655.html 基因表达分析里面,RNA-seq是现在转录组研究常用的技术了,但是通过二代测序获得数据后...
  • SHMILYRINGPULL
  • SHMILYRINGPULL
  • 2014-12-01 10:25:09
  • 3311

统计2.2.1cufflinks的矩阵和差异表达结果--大量数据结构

统计最新版的cufflinks的矩阵结果和差异表达结果(针对基因):
  • skenoy
  • skenoy
  • 2014-05-31 09:00:52
  • 925

生物信息学习——cufflinks

原文地址:http://blog.sina.com.cn/s/blog_751bd9440102v72b.html Cufflinks下主要包含cufflinks,cuffmerge,cuffcomp...
  • ganges_zs
  • ganges_zs
  • 2017-03-06 15:45:03
  • 1284

RPKM与TPM值的区别

对于RNA-Seq,目前主流还是用RPKM/FPKM来形容一个基因的表达量。有人说TPM更好。 RPKM定义:有一个基因A,它在这个样本的转录组数据中被测序而且mapping到基因组了 5000...
  • herokoking
  • herokoking
  • 2017-12-13 13:39:02
  • 541
收藏助手
不良信息举报
您举报文章:【基因表达数据处理】从RAW测序数据,到FPKM的过程
举报原因:
原因补充:

(最多只允许输入30个字)