基因序列一般是fasta格式,基因注释文件一般是gff/gtf格式。一般来说,数据都是以gz格式压缩存在。
解压缩文件:gunzip *gz
检查数据是否完整:md5值
生成md5值: md5sum *gz > md5.txt
查看md5值: cat md5.txt
比对md5值: md5sum -c md5.txt(必须是数据初始值)
第一步 数据控制(fastqc multiqc)
fastqc 样本名称
批量处理 fastqc*gz
for i in ‘ls *gz‘; do fastqc $i ;done
同时并行处理:ls *gz|xargs -I [] ehco ' fsatqc []'
ls *gz|xargs -I [] ehco ' nohup fsatqc [] &'
cat fastqc .sh
bash fastqc .sh
第三步 报告解读
主要看是否有引物序列