继师兄详细地讲述这个思路之后,我进行一个归纳总结(师兄说,首先要建立一个思想上的流程,再来纠结软件、命令这些细节!!!!!!)
首先你得了解 raw_data / 参考基因组 .fa / 注释文件 .gtf / 索引文件 indexes(通过hisat2-build ,根据基因组文件新建索引文件)
raw_data 原始数据
参考基因组 .fa 1——— ————— —————— ——————— ———————— ————— —————
2————— —————— ——————— —————— ————————
3———— ————— ———— —————— ——————— ————— ——— —
注释文件 .gtf 1chr
基因 转录本1/2/3…… 内含子……
索引文件
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
从公司拿到的raw_data开始:
一、质控数据(fastqc)——根据质控数据的好坏,进行筛选,数据不行的用trim去掉(具体什么软件也没听清楚