RNA-seq数据分析相关

mRNA-seq数据分析

1. 使用fastQC及multiQC对原始测序结果进行质控

2. bowtie2去除测序数据中rRNA --约去除0.2%的rRNA数据

3. hisat2进行参考基因组比对 --全比对率高于94%证明测序数据质量较好

4. samtools转换文件格式

5. featureCount对基因表达数据进行定量

6. 基因表达数据转化为矩阵(merge函数)

7. 转换基因symbol进行DEG分析(基于EdgeR及R project)

基因功能富集分析结果(基于clusterProfile)

基因通路富集结果

差异基因蛋白互作关系

相关文件格式

1. fasta: 记录序列信息(有其他扩展名)

对于每条序列

首行:“>”, 加上注释

在首行(用于唯一描述序列之后),以单字母标准编码表达的实际序列数据

核酸编码:A、C、G、T、U、R、Y、K、M、S、W、B、D、H

氨基酸编码:A、B、C、D、E、F、G、H、I、J、K、L、M、N、O、P、Q、R、S、T、U、V、W、Y、Z、X、*(终止密码子)

2. GFF/GTF:记录注释信息

GFF:记录基因组上基因或其他特征的位置信息,目前常见的是version3

GTF:和GFF version2相同

(1)seqname: 序列名,记录chr1, 1, contig1, scaffold_1

(2)source: 数据来源,或文件由什么软件生成

(3)feature: 特征名,例如gene

(4)start: 起始位置,从1开始计数

(5)end: 终止位置

(6)score: 得分,对该类型存在性和其坐标的可信度

(7)strand: +正链或-负链相对参考基因组

(8)frame:0, 1, 2,较为复杂,密码子偏移

(9)attribute:更详细的描述

3. BED:基因组浏览器常用格式

常用于在基因组浏览器中展示注释信息,只有前三个信息必须

(1)seqname

(2)start,从0开始计数

(3)end

(4)name

(5)score

(6)strand

(7)thickStart

(8)thickEnd

(9)itemRgb

(10)blockCount

(11)blockSizes

(12)blockStarys

4. SRA: NCBI SRA 数据库存放格式

    SRA是一个数据库,NCBI为了解决高通量数据庞大的存储能力,设计的一种数据压缩方案

一般使用fastq-dump和fasterq-dump来将其转换成Fastq格式数据,才能做后续数据分析

5. fastq:高通量数据存放格式

保存生物序列(通常为核酸序列)及其测序质量得分信息的文本格式。序列与质量得分都由单个ASCII码表示

一个序列通常由四行组成:

(1)以@开头,之后为序列的标识符以及描述信息(与fasta格式的描述行类似)

(2)序列信息

(3)以+开头,之后可以在加上序列的标识及描述信息(可选)

(4)质量得分信息,与第二行的序列相对应,长度必须与第二行相同

6. SAM/BAM: 高通量数据比对存放格式

(1)qname: query序列的ID

(2)flag:      用于描述比对情况

(3)rname: 比对到的参考基因组的染色体编号(或者contig/scaffold)

(4)pos:      比对到的起始位置,以1开始

(5)mapq:对比质量,范围在0--255

(6)cigar:    记录联配情况

(7)rnext:    配对read对应的染色体编号

(8)pnext:   配对read对应的位置

(9)tlen:      能和基因组匹配的长度

(10)seq:    序列信息

(11) qual:序列对应质量信息

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值