今天开始ATAC-Seq 边学边分析总结。
首先说一下fastq 和fasta格式的不同和转换:转换用seqtk ,
用conda 安装seqtk, 然后转换:
seqtk seq -A larvae1_S1_L001_R1_001.fastq > larvae1_S1_L001_R1_001.fasta
fasqa 不适合储存并且没有质量信息,所以我们无需转换,在这里直接用fastq格式。
gzip *
//压缩目录下的所有文件
gzip -d*
解压全部压缩包(很慢)
我拿到的是emily的数据, 格式为fastq.gz 先解压:
gzip -d larvae1_S1_L001_R1_001.fastq.gz
解压好的文件为:larvae1_S1_L001_R1_001.fastq
然后质控: 用了fastqc, 首先安装fastqc: 用conda 安装
conda install -y fastqc
安装后之后呢,开始质控:为了避免混乱,先建一个新的文件夹: qcOutdir
mkdir qcOutdir
fastqc larvae1_S1_L001_R1_001.fastq -t 2 -o qcOutdir
结果会出现在文件夹里。
对文件夹里的所有 larvae stage 的