Mismatch K-tuple

Mismatch K-tuple

Mismatch K-tuple表明连续 k 元组中允许出现m(m<k)个错误

说法一

StackTADB: a stacking-based ensemble learning model for predicting the boundaries of topologically associating domains (TADs) accurately in fruit flies

特征表示:
f k M i s = { { A k } 1 , { A k − 1 T 1 } 1 , { A k − 2 T 2 } 1 , . . . , { C k } 1 } 等 价 于 : { { A A A A } 1 , { A A A T } 1 , . . . , { G G G G } 1 , . . . , { C C C C } 1 } f^{Mis}_k=\{\{A^k\}_1,\{A^{k-1}T^1\}_1,\{A^{k-2}T^2\}_1,...,\{C^k\}_1\}\\ {等价于:}\\ \{\{AAAA\}_1,\{AAAT\}_1,...,\{GGGG\}_1,...,\{CCCC\}_1\} fkMis={{Ak}1,{Ak1T1}1,{Ak2T2}1,...,{Ck}1}{{AAAA}1,{AAAT}1,...,{GGGG}1,...,{CCCC}1}
变量说明:

k k k:K-mers的窗口大小

{ A k } 1 \{A^k\}_1 {Ak}1:表示在 { A k } \{A^k\} {Ak}中允许有一个错误

特征向量维数: 4 k 4^k 4k

**其他操作:**可以选择所有特征中计数最高的前N个(如:600)作为最终特征

说法二

2021-04_bio_iEnhancer-XG:interpretable sequence-based enhancers and their strength predictor

特征表示:
f k , m m i s ( x ) = ( ∑ j = 0 m c 1 , j , ∑ j = 0 m c 2 , j , . . . , ∑ j = 0 m c 4 k , j ) f^{mis}_{k,m}(x)=(\sum^m_{j=0}c_{1,j},\sum_{j=0}^mc_{2,j},...,\sum_{j=0}^mc_{4^k,j}) fk,mmis(x)=(j=0mc1,j,j=0mc2,j,...,j=0mc4k,j)
变量说明:

c i , j c_{i,j} ci,j is the occurrence of the i i ith K-mer type in x x x⁠, only j j j does not match, i = 1 , 2 , 3 , … , 4 k i =1, 2, 3, …,4^k i=1,2,3,,4k and j = 0 , 1 , … , m j = 0, 1,…, m j=0,1,,m⁠.

x x x就是序列

∑ j = 0 m c 1 , j \sum^m_{j=0}c_{1,j} j=0mc1,j j j j从0累加到m,统计从不出错到m个错误的kmer的出现总和。 c 1 , 0 c_{1,0} c1,0就统计第一种类型的kmer在不出错的情况下的出现次数, c 1 , 1 c_{1,1} c1,1就统计第一种类型的kmer在容忍一个碱基出错的情况下的出现次数

demo

k = 4 k=4 k=4时,此时会产生 4 4 4^4 44=64维特征向量

总结

一般有两种做法,一种是就单独统计m,另一种就是从0累加到m进行求和统计。

发散:可以从0累加到m进行拼接统计

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值