写在前面的话
前面我们说到,HOMER软件可以进行多种类型的motif分析,如 promoter motif analysis
,基因组位置motif分析(ChIP-seq分析中的motif分析),利用自定义的fasta文件进行motif分析,RNA序列的motif分析(分析CLIP-seq数据中的RNA binding elements)。 但是,不管我们如何调用HOMER,对于发现motif的基本步骤都是一致的,下面主要介绍一下各步骤的原理:
原理理解即可,HOMER已经将各个步骤封装起来,不用一步一步分别进行。
预处理
1. 序列提取
若给出的基因组位置信息,则提取出来的是对应的基因组序列;
若给出的是基因accession number,则需要选择适当的promoter区域
2. 背景选择
如果没有自定义背景序列信息(即:-bg
参数),HOMER将自动为用户选取。如果使用的是基因组位置,将从整个基因组序列抓取GC含量一致的序列作为背景序列。若进行的是promoter分析,则将所有的promoter作为背景。
3. GC含量矫正
将目标序列和背景序列对GC含量进行分bin(5%区间),背景序列通过调节权重得到和目标序列同样的GC含量分布。这可以使得HOMER在分析来自CpG岛时的序列时,不会简单的找到那些GC富集的motif。下图是一个ChIP-seq分析中GC含量分bin的例子