首先获得一个数据:自己的实验数据or在文献里面下载的都可以
2.用anaconda创建一个新的分析环境
conda create -n rnaseq python= 3.9.12##创建
conda env list #查看环境
conda activate rnaseq #进入conda 环境
conda deactivate #退出当前conda环境
3.下载软件
salmon trim-galore
4.转换SRR到FASTQ格式
fastq-dump --split-files /xx/SRR2243229
此处也可以输出gz格式的压缩文件
5.质量检测
ls..fastq | xargs fastqc -t 12 -o ./
从这个里面打开FASTQ文件,然后看文件的各项,具体可以看https://zhuanlan.zhihu.com/p/57628300里面把质控的图讲的很清楚,从而能很清晰的知道自己的数据是否好
6.质控清洗:使用trim-galore去除低质量碱基和接头
/xx/TrimGalore/trim_galore -q 25 --phred33 --length 25 -e 0.1 --stringency 4 -o fastq/ ../fastq/SRR12207284_1.fastq
7.使用salmon进行比对
首先从ensembl官网下载cDNA的FASTA文件
http://ftp.ensembl.org/pub/release-106/fasta/homo_sapiens/cdna/
解压缩
gunzip Homo_sapiens.GRCh38.cdna.all.fa.gz
生成索引
salmon index -t Homo_sapiens.GRCh38.cdna.all.fa -i /index/ensembl/human
得到文件如下:
-rw-r--r-- 1 med-zhouh med-chenh 754K Jul 8 18:08 complete_ref_lens.bin
-rw-r--r-- 1 med-zho