Mismatch K-tuple
Mismatch K-tuple表明连续 k 元组中允许出现m(m<k)个错误
说法一
StackTADB: a stacking-based ensemble learning model for predicting the boundaries of topologically associating domains (TADs) accurately in fruit flies
特征表示:
f
k
M
i
s
=
{
{
A
k
}
1
,
{
A
k
−
1
T
1
}
1
,
{
A
k
−
2
T
2
}
1
,
.
.
.
,
{
C
k
}
1
}
等
价
于
:
{
{
A
A
A
A
}
1
,
{
A
A
A
T
}
1
,
.
.
.
,
{
G
G
G
G
}
1
,
.
.
.
,
{
C
C
C
C
}
1
}
f^{Mis}_k=\{\{A^k\}_1,\{A^{k-1}T^1\}_1,\{A^{k-2}T^2\}_1,...,\{C^k\}_1\}\\ {等价于:}\\ \{\{AAAA\}_1,\{AAAT\}_1,...,\{GGGG\}_1,...,\{CCCC\}_1\}
fkMis={{Ak}1,{Ak−1T1}1,{Ak−2T2}1,...,{Ck}1}等价于:{{AAAA}1,{AAAT}1,...,{GGGG}1,...,{CCCC}1}
变量说明:
k k k:K-mers的窗口大小
{ A k } 1 \{A^k\}_1 {Ak}1:表示在 { A k } \{A^k\} {Ak}中允许有一个错误
特征向量维数: 4 k 4^k 4k
**其他操作:**可以选择所有特征中计数最高的前N个(如:600)作为最终特征
说法二
2021-04_bio_iEnhancer-XG:interpretable sequence-based enhancers and their strength predictor
特征表示:
f
k
,
m
m
i
s
(
x
)
=
(
∑
j
=
0
m
c
1
,
j
,
∑
j
=
0
m
c
2
,
j
,
.
.
.
,
∑
j
=
0
m
c
4
k
,
j
)
f^{mis}_{k,m}(x)=(\sum^m_{j=0}c_{1,j},\sum_{j=0}^mc_{2,j},...,\sum_{j=0}^mc_{4^k,j})
fk,mmis(x)=(j=0∑mc1,j,j=0∑mc2,j,...,j=0∑mc4k,j)
变量说明:
c i , j c_{i,j} ci,j is the occurrence of the i i ith K-mer type in x x x, only j j j does not match, i = 1 , 2 , 3 , … , 4 k i =1, 2, 3, …,4^k i=1,2,3,…,4k and j = 0 , 1 , … , m j = 0, 1,…, m j=0,1,…,m.
x x x就是序列
∑ j = 0 m c 1 , j \sum^m_{j=0}c_{1,j} ∑j=0mc1,j: j j j从0累加到m,统计从不出错到m个错误的kmer的出现总和。 c 1 , 0 c_{1,0} c1,0就统计第一种类型的kmer在不出错的情况下的出现次数, c 1 , 1 c_{1,1} c1,1就统计第一种类型的kmer在容忍一个碱基出错的情况下的出现次数
demo
当 k = 4 k=4 k=4时,此时会产生 4 4 4^4 44=64维特征向量
总结
一般有两种做法,一种是就单独统计m,另一种就是从0累加到m进行求和统计。
发散:可以从0累加到m进行拼接统计