数据基于BGISEQ500 SE50 clean data约1.XG,20+M reads。
- SE50 20M是否够?
对基因定量足够。理由:1,测序饱和度(随reads数增加,检测到的基因数随之上升。但当测序量达到一定区间后,基因数变化不明显)。 2,如果要检测isoform等信息,需要PE150或PE100(6G数据),但仅仅定量SE50 20M已经够了。1,FastQC质控
FastQC -t 2 XX.fq.gz
- ’per base sequence content’几乎每个样本前15碱基存在bias。是否要剔除或剪切?
可以不剔除。随机引物引起的碱基偏向行本质是测序起始位置偏向性,任然是真实转录本序列,故比对时候不必剔除。
其他解释和讨论:
https://sequencing.qcfail.com/articles/positional-sequence-bias-in-random-primed-libraries/
http://www.360doc.com/content/18/0401/08/19913717_741943897.shtml
2, HISAT2 index
从HISAT2官网下载,这里下载mm10的index (http://daehwankimlab.github.io/hisat2/