转录组测序day 1 基础知识

yuxiang&chenxi

已于 2022-09-20 12:23:36 修改

阅读量1k

点赞数 2

文章标签：数据挖掘数据库 r语言数据分析

于 2022-09-20 10:02:21 首次发布

本文链接：https://blog.csdn.net/doctor_yuxiang/article/details/126946751

版权

写在前面，听完生信技能树的生信课之后受益匪浅，因此做一些整理和自己的理解，再次感谢生信技能树

一、概述

转录组是RNA转录本的集合，包括了在单个细胞或者大量细胞内的编码和非编码RNA。RNA在中心法则中是基因表达的起始，在一定程度上可以指示基因的表达或者某些LncRNA microRNA调控RNA的表达。因此我们通过了解单个细胞或者整体的RNA水平，可以得到不同处理因素之下对基因表达的影响，并通过下游分析，得出影响的核心基因、生物过程等。

二、普通转录组的基本流程

构建文库，连接好带接头的cDNA，接头自身并不配对，用途是与flowcell上的接头结合，起着固定的作用。barcode也就是index，起到识别的作用，这样可以多个样本一同上机测序。

SBS（边成边测序）在上机测序的中通过单分子阵列实现在小型芯片（Flowcell）上进行桥式PCR 反应。通过可逆阻断技术实现每次只合成一个碱基，再利用四种带有不同荧光标记的碱基，通过荧光激发/捕获，读取碱基信息。基于可逆终止的、荧光标记dNTP，边合成边测序。

三、得到fastq文件

上机完成的结果以fastq文件形式保存，双端测序一般一个样本对应两个fq文件，gz是压缩的后缀，如

高通量测序（如Illumina NovaSeq等测序平台）得到的原始图像数据文件，经碱基识别（Base Calling）分析转化为原始测序序列（Sequenced Reads），我们称之为Raw Data或Raw Reads，结果以FASTQ（简称为fq）文件格式存储，其中包含测序序列（Reads）的序列信息以及其对应的测序质量信息。测序样品中真实数据随机截取结果如下图

四、设置清晰的工作路径

## 示例如下：
├── database # 数据库存放目录，包括参考基因组，注释文件，公共数据库等
├── project  # 项目分析目录
    └── Human-16-Asthma-Trans #具体项目
        ├── data # 数据存放目录
        │   ├── cleandata # 过滤后的数据
           	│	├── trim_galore # trim_galore过滤
		   	│	└── fastp	    # fastp过滤
        │   └── rawdata # 原始数据
        ├──  Mapping # 比对目录
        │   ├── Hisat2 # Hisat比对
        │   └── Subjunc # subjunc比对
        └── Expression # 定量
            ├── featureCounts # featureCounts
            └── Salmon # salmon定量

# 进入到个人目录
cd ~

## 1.建立数据库目录：在数据库下建立参考基因组数据库，注意命名习惯：参考基因组版本信息
mkdir -p database/GRCh38.105

## 2.建立项目分析目录
mkdir project
cd project
mkdir Human-16-Asthma-Trans # 注意项目命名习惯：物种-样本数-疾病-分析流程
cd Human-16-Asthma-Trans

# 建立数据存放目录
mkdir -p  data/rawdata  data/cleandata/trim_galore  data/cleandata/fastp
# 建立比对目录
mkdir -p Mapping/Hisat2  Mapping/Subjunc
# 建立定量目录
mkdir -p Expression/featureCounts  Expression/Salmon
# 查看整个分析目录准备结构
tree
├── data
│   ├── cleandata
│   	├── trim_galore
│   	└── fastp		
│   └── rawdata
├── Expression
│   ├── featureCounts
│   └── Salmon
└── Mapping
    ├── Hisat2
    └── Subjunc