【基因表达数据处理】从RAW测序数据,到FPKM的过程

转载 2017年10月03日 15:05:27
FPKM, Fragments Kilobase of exon model per millon mapped reads, which can be used to indicate the expression (abundance) characteristics of genes. Now I will describe operation about obtaining interested gene FPKM value.

1.Software Download

1).fastq-dump: convert sra file to fastq file.

 website:http://www.ncbi.nlm.nih.gov/Traces/sra/sra.cgi?view=software 

2).bowtie:an ultrafast and memory efficient tool for aligning sequencing reads to long reference sequences.

 website:http://bowtie-bio.sourceforge.net/bowtie2/index.shtml 

3).cufflinks:assembles transcripts, estimates their abundances, and tests for differential expression and regulation in RNA-Seq samples.

 website:http://cufflinks.cbcb.umd.edu/ 

4).gffread: convert gff3 file to gtf file.

 website:http://cufflinks.cbcb.umd.edu/ (This program is included with cufflinks package)

2. Operation

1) Download genome.fa and genes.gff3 file from genome website; Download sra file from NCBI

2) Format conversion

 $ fastq-dump -I --split-files SRR123456789.sra # convert sra file to fastq file

 $ gffread -E genes.gff3 -o genes.gtf # convert gff3 file to gtf file

3) Index files

 $bowtie2-build genome.fa genome

4) Alignment

 $bowtie2 -x genome -1 SRR123456789_1.fastq -2 SRR123456789_2.fastq -S SRR123456789.sam

 $samtools view -bS SRR123456789.sam > SRR123456789.bam

 $samtools sort SRR123456789.bam SRR123456789

5) FPKM values

 $cufflinks SRR123456789.bam -G genes.gtf -o result

After these operations, we can extract FPKM values from genes.frkm_tracking file based on gene ID.

NCBI SRA数据预处理

SRA数据的的处理流程大概如下一、SRA数据下载、NCBI 上存储的数据现在大都存储为SRA格式。下载以后就是以SRA为后缀名。这里可以通过三种方式下载SRA格式的数据。1.通过http方式,2.通过...
  • OpenHero
  • OpenHero
  • 2013年08月25日 22:32
  • 14791

测序原始数据处理-质控

在获得下机数据后,做的第一步是质控。质控工具有很多,这里就不做一一介绍了。这里讲如何使用BWA MEM将质控合格的数据比对到参考基因组上。         BWA是一款基于BWT的快速比对工具,其...

基因数据处理49之cloud-scale-bwamem运行成功

1.先使用art生成数据: 请看前一篇2.上传fastq到hdfs:hadoop@Master:~/cloud/adam/xubo/data/GRCH38Sub/cs-bwamem$ spark-s...

基因数据处理11之sam文件格式

基因数据处理11之sam文件格式 SAM的全称是sequence alignment map format。而BAM就是SAM的二进制文件(B取自binary) 1. read名称 2. SAM...

基因数据处理17之使用scala对BWA运行结果进行各阶段程序时间提取和统计求和

提取代码: package test import scala.io.Source import java.io.File._ import java.io.PrintWriter object...

基因数据处理24之BWASW算法ref分块建立索引然后比对(ref切分为四段,read为25000条,4线程)

比默认的要块1倍左右 1 [M::bwa_idx_load_from_disk] read 0 ALT contigs [bsw2_aln] read 25000 sequences/pairs (...

基因数据处理50之cs-bwamem、bwa、snap、bwa-mem与art比较

直接看结果:hadoop@Master:~/cloud/adam/xubo/data/GRCH38Sub/cs-bwamem$ cat G38L100c50Nhs20.aln ##ART_Illum...

基因数据处理37之bdg-formats编译成功

更多代码请见:https://github.com/xubo245/AdamLearning1解释 bdg-formats是在spark平台上用avro定义的基因处理的数据格式,包括read、sam...

基因数据处理36之qc-metrics安装

更多代码请见:https://github.com/xubo245/SparkLearning Spark中组件Mllib的学习之基础概念篇 1解释 Read and variant metr...

基因数据处理26之bcftools安装和使用

1.下载:https://github.com/samtools/bcftools2.安装 make make install3.结合samtools使用 对排序好的bam数据用samtools...
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:【基因表达数据处理】从RAW测序数据,到FPKM的过程
举报原因:
原因补充:

(最多只允许输入30个字)