因子复杂度
因子复杂度算法的概念来自“字符串的代数组合”,在自然语言处理,模块识别 和密码理论等领域有着广泛的应用。简单来说,因
子复杂度算法通过分析子字符串的组合获取字符串的特征,该特征的主要特征是子字符串组合的复杂度以及拓扑熵。 下面给出因子复杂度的具体算法。对于一个字母表 &,& ={ A T C G }
假定一条基于字母表&的序列|W|,它的长度为 |W|。
我们知道,计算拓扑熵并不容易,因为拓扑熵算法随着有限长度序列的长度变化而变化。 因此,我们以 100 bp 长度的序列为例,阐述拓扑熵的算法。首先获取到 100 bp 长度序列的因子复杂度函数,观察该因子复杂度函数的函数图像可以发现,前 7 维的因子复杂度函数值呈指数水平递增,在第 7 维特征达到顶峰,然后数值缓慢线性下降。值得一提的是,拓扑熵本身就是与因子复杂度特征的非线性变化有关系,因此需要关注的是这前 7 维的因子复杂度特征。 Koslicki(Koslicki 2011) 等提出了选择拓扑
熵的公式如下: