IBS Index(Information-Based Similarity Index)【1】:基于信息的相似性指数来检测和量化心率时间序列中的时间结构
步骤
一、时间序列映射为二进制的序列
1)将m + 1个连续的区间映射到长度为m的二进制序列,称为m位“字”(此时m=8),“字”总数为
2)每次移动一个数据点,该算法在整个时间序列中生成一个m位“字”
二、计算不同时间序列的“距离”
p1(wk)和R1(wk)表示第k个m位“字”在时间序列S1中出现的概率和排名
(标准化因子)
(每个“字”的权重因子F,范围为[0,1])
(两条时间序列的加权距离,D的范围为[0,1])
D越小,两序列越相似
应用
Paper1:基于信息相似性的阵发性房颤自动检测方法
一、数据:
AF(房颤)数据库包括25例病患的ECG记录,NSR数据库包括18例健康个体的ECG记录。
房颤发作期的RR间期波动幅度明显高于非房颤发作期。
二、步骤:
1)从ECG提取AF和NSR的RR间期序列
2)一个观察窗算一个样本,随机分配AF和NSR的训练、验证样本数据(重复5次,生成5个样本数据集)
3)从观察窗(每个样本)中提取RR间期间隔的‘字’及排名
4)构建标准“字”序列作为模板来代表AF、NSR
5)设计由不同对AF和NSR模板组成的集成分类器
本文中,每个数据集中随机生成了10个AF模板和15个NSR模板,组成了10*15个AF-NSR模板对,用与未知序列对比(相当于bagging)
6)比较未知的RR时间序列与模板之间的基于信息的差异距离
每对差异距离标准化:(),再利用求差异距离的均值:(T为AF-NSR模板对数量,T=150)
7)调整参数,以达到高检测精度和低检测方差的双重目标
调整参数:“字”长m,观察窗大小n,偏差∆(如果DN > DAF + ∆,片段为AF,否则为NSR)
三、优点
- AF和NSR在不同的受试者中表现可能不一致,因此为每个AF、NSR类设计多个(10、15)模板,以充分表示AF和NSR
- 最后的AF、NSR分类,是将AF和NSR模板两两组合,形成一个Bagging集成模型,再由集成模型决定(这里由150次判定组成,判定由一个AF和NSR模板对未知序列进行差异距离的评分)。最后的决定是由150次判定投票共同决定的,通过加权投票方式,增强分类确信度高的,削弱分类确信度低的。实验结果表明,该集成方案降低了噪声影响,从而降低了方差。
“加权投票”在哪加权?
1、计算差异距离时的加权因子F(可能性大);2、对加权(文中未写),再求差异距离均值
paper2:基于信息相似性指数的基因组分类 SARS冠状病毒的应用
paper3:使用频率和等级顺序统计数据的人类心跳的语言学分析