写在前面,听完生信技能树的生信课之后受益匪浅,因此做一些整理和自己的理解,再次感谢生信技能树
一、概述
转录组是RNA转录本的集合,包括了在单个细胞或者大量细胞内的编码和非编码RNA。RNA在中心法则中是基因表达的起始,在一定程度上可以指示基因的表达或者某些LncRNA microRNA调控RNA的表达。因此我们通过了解单个细胞或者整体的RNA水平,可以得到不同处理因素之下对基因表达的影响,并通过下游分析,得出影响的核心基因、生物过程等。
二、普通转录组的基本流程
构建文库,连接好带接头的cDNA,接头自身并不配对,用途是与flowcell上的接头结合,起着固定的作用。barcode也就是index,起到识别的作用,这样可以多个样本一同上机测序。
SBS(边成边测序)在上机测序的中通过单分子阵列实现在小型芯片(Flowcell)上进行桥式PCR 反应。通过可逆阻断技术实现每次只合成一个碱基,再利用 四种带有不同荧光标记的碱基,通过荧光激发/捕获,读取碱基信息。基于可逆终止的、荧光标记dNTP,边合成边测序。
三、得到fastq文件
上机完成的结果以fastq文件形式保存,双端测序一般一个样本对应两个fq文件,gz是压缩的后缀,如
高通量测序(如Illumina NovaSeq等测序平台)得到的原始图像数据文件,经碱基识别(Base Calling)分析转化为原始测序序列(Sequenced Reads),我们称之为Raw Data或Raw Reads, 结果以FASTQ(简称为fq)文件格式存储,其中包含测序序列(Reads)的序列信息以及其对应的 测序质量信息。测序样品中真实数据随机截取结果如下图
四、设置清晰的工作路径
## 示例如下:
├── database # 数据库存放目录,包括参考基因组,注释文件,公共数据库等
├── project # 项目分析目录
└── Human-16-Asthma-Trans #具体项目
├── data # 数据存放目录
│ ├── cleandata # 过滤后的数据
│ ├── trim_galore # trim_galore过滤
│ └── fastp # fastp过滤
│ └── rawdata # 原始数据
├── Mapping # 比对目录
│ ├── Hisat2 # Hisat比对
│ └── Subjunc # subjunc比对
└── Expression # 定量
├── featureCounts # featureCounts
└── Salmon # salmon定量
# 进入到个人目录
cd ~
## 1.建立数据库目录:在数据库下建立参考基因组数据库,注意命名习惯:参考基因组版本信息
mkdir -p database/GRCh38.105
## 2.建立项目分析目录
mkdir project
cd project
mkdir Human-16-Asthma-Trans # 注意项目命名习惯:物种-样本数-疾病-分析流程
cd Human-16-Asthma-Trans
# 建立数据存放目录
mkdir -p data/rawdata data/cleandata/trim_galore data/cleandata/fastp
# 建立比对目录
mkdir -p Mapping/Hisat2 Mapping/Subjunc
# 建立定量目录
mkdir -p Expression/featureCounts Expression/Salmon
# 查看整个分析目录准备结构
tree
├── data
│ ├── cleandata
│ ├── trim_galore
│ └── fastp
│ └── rawdata
├── Expression
│ ├── featureCounts
│ └── Salmon
└── Mapping
├── Hisat2
└── Subjunc