Toward an Interpretable Continuous Glucose Monitoring Data Modeling
一种可解释的连续血糖监测数据建模
IEEE Internet of Things Journal
Healey 等人 [24] 强调了 GPT-4 使用其数据分析插件取得的良好效果,旨在将此工具集成到糖尿病护理中。 本研究的前提之一是 [25] 中提出的建议,其中假设每天的葡萄糖数据可以用聊天机器人来描述。 相反,在 [24] 中,人们希望获得对 14 天合成数据的总结。 该领域专家对结果进行了验证,然后评估其在葡萄糖管理系统中的可能集成。 尽管该方法被证明能够取得有希望的结果,但在他们提供的 14 天总结中发现了一些错误。 这强调了进行日常数据分析作为更复杂评估的先决条件的必要性。 本文将在第 V-C 节中进一步讨论该提案。
为了解决在确保可解释性的同时简化大量数据流的需求,本文主张建立一个糖尿病管理框架,该框架结合了多患者监测系统和一个基于白盒规则的模型,以实时对数据进行语言总结,并基于 GLiDTS 原则,重点关注日常数据。
本节提出了一种基于语言摘要计算的新方法,该方法以实时收集的葡萄糖监测患者时间序列 (TS) 分析为特征。 暴露的方法在回顾系统中发现的关于患者监测和数据描述的不同缺点后,可以提供帮助。
从已编译的原始数据中提取隐式知识,代表了一个非平凡的信息选择和建模过程,在进一步处理之前,这些信息仍然未知,但可能有用。 此过程是按照基于数据库中知识发现 (KDD) 程序的第一个任务进行的,其中包括 NLG,如 Marín 和 Sánchez [34] 提出的体系结构中所述。 最初,数据被检索和分割,以便使用摘要器进行后续表征,其目的是描述可观察特征,形成原型,然后将其翻译成句子。 此过程如 Fig. 4 所示,最终产生满足质量框架的语言摘要。
白盒模型结构图
方法
A. 预处理
首先,必须考虑在葡萄糖传感器注册的每个实例中保存着不同的属性。 在变量选择方面,我们的系统只考虑包含那些指代时间戳和在 5 分钟周期内收集的葡萄糖水平的属性。 结果,TS 被定义为:
数据采集中未采集到数据的次数小于6次时,使用平均窗口算法
为什么是二维空间:TS(时间序列)数据由许多点组成,这些点通过一系列线段连接在一起,形成一条曲线。可以将这条曲线视为在二维空间 (R²) 中的一个形状。这种表示方式让时间序列数据的模式、趋势和变化在图形上更为直观。
自上而下的分割”意味着先从整体视角来观察整个时间序列,找出其中大的趋势或模式,然后再逐步分割成较小的、局部的区域,以捕捉细节。
“奇点”指时间序列中的异常或突变点,例如某个时刻的突发事件或异常波动。
“冗余”指数据中信息重复或变化不大的部分,这些部分对整体分析的影响较小。
这种分割方法将奇点和冗余区域重新组织在新的、同质的片段中,使得时间序列更为简洁,易于分析。
本工作中使用的一种分割方法被称为 Ramer-Douglas-Peucker (RDP) 算法,如 [51] 中所述。 作为输入,RDP 接收一个要分割的完整 TS,从而产生另一个具有较少点数的 TS;RDP 要遵循的步骤在 Martinez-Cruz 等人 [42] 提出的方法中详细说明。 选择该算法是因为它以一种非常简单直观的方式保留了最相关的 TS 特征。 该方法已在 [42] 和 [52] 等文章中得到应用,并取得了非常满意的结果。 尽管基于分段线性逼近的分割方法有很多,其特征相似甚至更好,但在未来的工作中仍需更深入的研究。
DRP算法:它的主要目标是用较少的点来近似原始曲线,而尽量保持曲线的整体形状。这在时间序列 (TS) 分析中非常有用,因为 RDP 可以将时间序列数据简化成较少的点,从而减少数据量和计算复杂度,同时保留主要的趋势和变化。
步骤:
从曲线的起点到终点画一条直线。
计算曲线中每个点到这条直线的垂直距离。
找出距离直线最远的那个点,如果该距离大于设定的阈值
epsilon
,则将此点视为一个重要的特征点,保留该点。将曲线在此点处分割成两个部分,然后对每一部分递归应用上述步骤,继续查找分割点,直到所有点到直线的距离都小于
epsilon
。
B. 数据标注和特征发现
尽管时间序列的数据特征化和简化主要集中在几何角度,但专家面临着识别时间序列中存在的模式或特征的重大挑战。 尽管如此,医务人员在定义他们对事件识别的偏好方面起着至关重要的作用,这些偏好随后需要以自然语言进行传达。 然后,采用模糊集理论对不同的变量进行标注,从而能够对不同特征内定量测量的定性描述进行描述。 在这一点上,似乎有必要指出,并不需要现有的标注数据集,因为每个时间序列都是按需进行特征化的。 因此,这涉及计算不同的汇总器(语言术语),这些汇总器是专家感兴趣的来源,并随后公开。
模糊集理论是一种处理不确定性和模糊性的数学方法,允许对变量进行模糊标注。例如,将血糖水平定义为“高”、“正常”或“低”,每种描述都是一种“模糊集”。
无需标注数据集:本研究的方法无需依赖现有的、已经标注好的数据集。这是因为每个时间序列(TS)都可以按需进行特征化,并不需要预先定义好的数据标签。在分析每个新的时间序列数据时,可以根据实际情况动态地应用模糊集和规则来生成定性描述(计算特征匹配对应模糊描述)
汇总器(语言术语):在模糊集理论中,计算出的“汇总器”是用于描述数据特征的定性语言术语(如“高血糖倾向”或“血糖波动较大”),这些术语基于数据特征生成。根据触发的规则,生成相应的定性描述
- 葡萄糖水平汇总器:定义葡萄糖测量中的阈值以确定患者的状态,考虑到每个注册值 必须与一个语言术语相伴,例如非常高、高、中等、低或非常低。 事实上,不同的标签可能因研究的每个案例而异,但已根据美国糖尿病协会 (ADA) [18] 提供的预定义间隔进行近似 (见图 5)。
- 区段趋势汇总器:计算时间和之间区段中存在的斜率,旨在估计两个样本之间的变化(例如,快速增加或减少,以及稳定),如图6所示。
- 日时段汇总器:为了清楚地指出样本集的注册时间段,必须丰富语言摘要。 我们系统中考虑的那些被称为在早晨、下午、晚上或一天结束时(参见图7)。
一旦成功应用了汇总器,就可以建立类型1原型(例如,血糖水平高或趋势值稳定)。 在理解一个区段中所有可用点的任务中,使用模糊量词Q作为聚合所有这些点的通用工具的需求出现了;在泛化满足域中所有已识别值内的给定条件的样本集合时,考虑每个适合特定汇总器的特征 (1) [30]。 系统中考虑的那些(图8)是少量、许多、大多数和几乎所有;这些术语对于构建类型2原型(例如,几乎所有血糖水平都中等)至关重要。
描述了一个模糊逻辑系统如何生成“原型形式”(protoform),用于总结时间序列数据中的趋势。这一方法通过“量词”、“限定词”和“汇总器”来生成描述性语句,并通过一个后处理标准来筛选出可信度高的原型形式。
R
是限定词(qualifier),定义了数据的子集范围(例如“在夜间”或“在特定时间段”)。
Q
是量词(quantifier),表示该特征适用的范围,比如“少量”、“大多数”或“几乎所有”。
A
是数据属性,例如“血糖水平”。
S
是汇总器(summarizer),用于描述属性的状态,例如“高”或“正常”。
μ_Q
是量词Q
的隶属度函数,表示“数量”的模糊程度。
μ_S(a_i)
是汇总器S
的隶属度函数,用来评估每个数据点a_i
与描述性状态的匹配程度。
R
在不同的数据区间生成不同的原型形式时,以获得整个数据的子集。例如,R
可以表示“夜间”这样的特定时间区间,从而限定在夜间时的数据点。DoT(可信度)筛选,
∧
表示取最小值运算,表示μ_R(y_i)
和μ_S(y_i)
的最小隶属度值。
μ_Q
、μ_R
和μ_S
分别表示量词、限定词和汇总器的隶属度函数,确保只有那些可信度DoT
高于阈值(例如DoT > 0.7
)的原型会被保留。
同时,简单的几何结构特征提取可以发现常见的模式或关键特征,这些特征指出了底层数据的意义,以使描述通过系统中变量进度的紧凑性获得更高水平的语义。 这些高级特征在图 9 中显示,对于在建立 TS 详细视角的过程中生成 NL 至关重要。
从初始的简单分段开始,通过对分段的趋势标记来识别更复杂的结构(例如峰值)。最终,这些结构提供了高层次的总结信息,支持对数据的深入理解和描述。
1)低血糖:要么是最低点被标记为低或极低的谷,要么是至少一个部分,其中第一个部分的第一个或最后一个点被标记为低或极低,后续样本被标记为相同。
2)高血糖:与峰值不同,当达到高值或极高值时,下一个值在较长的时间段内被标记为相同的方式。
3)波动:需要注意的是,这种事件存在于整个 TS 中,但只有在标记为(非常)高的峰值之后出现谷(或低血糖事件),反之亦然,才被认为,在最终的语言摘要中以这种方式描述。
请注意,低血糖和高血糖事件具有重要意义,因为它们指的是可能对患者造成有害损害的情况,与孤立的峰值可能发生的情况相反,因为它们可能反映了用户日常生活中正常的场景(例如,食物摄入或体力活动)。
C. 语言摘要作为血糖水平描述符
由于上一节的结果,需要计算人类将建模的知识外推到语句的能力,方法是利用预先建立的模板(如表 I 所示)。
该模板旨在总结分析过程中生成的原型集,由于篇幅原因,此处无法包含所有原型。 所生成的文本的偏好面向目标用户(TU)(医疗保健专业人员和糖尿病患者或其亲属),并基于专家指南,同时还涉及语言上下文本身。 遗憾的是,包含从分析的原型中获得的所有信息可能会导致对 TS 的重复总结,因此需要开发一个质量框架,以选择性地选择符合预定义规则的那些信息(参见表 II)。
总之,这些规则规定:规则 1 规定抽象表示(如峰值或波动)应在更简单的描述之前包含。 规则 2 和 11 与使摘要更短相关。 规则 4、9 和 13 的目的相同,即删除对最终用户来说是多余信息的句子。 规则 3 将生成的语言表达要达成的 DoT 的阈值设为 0.7。 此度量是在专家监督下启发式地确定的,目的是仅过滤相关信息并缩小响应的规模。 修改输出格式的规则是规则 5、8 和 12,它们更改最终摘要中的某些词语,使其更清晰。 规则 6 和 7 简化了时间表示,规则 10 包含在内以生成流畅的话语。
此阶段以获得符合建模知识和最终用户设定的质量要求的 NL 摘要文本而结束。
V. 结果和注意事项
A. 实验结果
提出的用于连续血糖监测数据描述的语言摘要方法在特定数据集 [53] 上进行测试时已被证明是有效的,该数据集是从一名糖尿病患者那里获得的。 值得强调的是,收集的数据已安全地保存在一个数据库中,该数据库不包含任何个人信息。 尽管如此,这项研究中涉及的不同程序都是按照 1964 年赫尔辛基宣言及其后来的更新和完善制定的标准进行的。
为了证明开发的专家引导系统的可行性,这里考虑的具体案例研究涉及以下日期:2023 年 9 月 19 日、2023 年 9 月 24 日和 2023 年 11 月 3 日(见表 III)。
首先,值得强调的是,正如 [25] 中所述,用于 TS 分割的 0.2 阈值已证明在简化 TS、消除冗余和保留其基本形状方面具有最佳性能,用作算法的输入数据。
B. 讨论和局限性
从调查受访者那里获得的总体 DoU 约为 0.73,这证明了该提案在其预备阶段的可行性和有效性。 图 11 显示了每组最终用户的結果。 深入研究,那些涉及摘要中包含的信息、实例的理解和描述质量的陈述(第 1、2、3、5、6 和 8 条)取得了积极的结果),有些变化很小(第 1、3、5 和 8 条)。 同时,第 6 条陈述的结果表明需要包含与日期区间相关的模糊摘要器,以及在创建高级原始形式时对其进行最佳利用。 正如预期的那样,总体上缺乏因果关系的理解(第 4 条),这是由于收集的数据未加标签,没有考虑与食物摄入或体育活动相关的记录,这意味着需要在表达方式上进行微调,但需要做出更明智的判断(见第 7、9 和 10 节)。
然而,由于收集的数据仅依赖于血糖水平测量,因此我们的方法范围有限,因为不应忽视可能影响血糖管理的重要因素,例如,进餐时间、体育活动、药物使用或胰岛素供应。 此外,泛化不适用,因为不同的患者可能需要改变系统的参数以描述血糖动力学;提出的框架仍然考虑了这些参数的个性化,旨在改善最终用户的体验。
C. 涉及 GPT-4 的定量比较
鉴于总结方法在血糖领域是前所未有的,因此,运行 GPT-4o 技术的人工智能 (AI) 聊天机器人的性能已针对 [25] 中提出的步骤以及 [24] 中扩展的考虑因素进行了测试。 旨在对非专用语言总结工具产生的结果进行概述,执行包括在评估生成输出时与技术专家进行讨论论坛的方法。 此验证方法也在 [24] 中进行,其中血糖 TS 的描述是根据两种不同的任务进行的。 首先,建议重点评估指标生成,在第二部分,它创建了数据的总结,突出显示了最相关的方面;知识是根据专家指导以及摘要在内容和结构方面应该满足的要求进行建模的。
为了评估该提议使用 GPT-4o 描述一日血糖 TS 的性能,已经使用三种不同的场景对两种不同的 TS(原始和分段的,如表 VI 所示)进行了测试:
- GPT-4o 聊天机器人 [54];
- 由 GPT-4 提供支持的数据分析插件 [24];
- 我们提出的基于GLiDTS的系统。
请注意,数据插补是在收集到的时间序列 (TS) 上进行的,方法详见我们的方法论。
提示首先向GPT-4o提供包含要描述的TS的文件,然后给出以下指令:“扮演一名糖尿病护理内分泌学专家,分析提供的连续血糖监测数据,包括最相关的信息,例如异常事件(高血糖和低血糖事件)、变化和汇总值。” 为此,请用自然语言 (NL) 总结,考虑日区间。”表III中所示的三个不同TS生成的LLM输出显示在表VI中。 请注意,出于篇幅原因,省略了该技术提供的关于糖尿病管理中潜在调整的冗余信息,如第一个输出所示。
为了评估这项技术的性能,我们定义了不同的标准来衡量GPT-4系统与预期的人类期望的接近程度。 表VII反映了这些标准,以及先前生成的摘要(表VII)的满意度以及每个摘要的评分:1(满意)或0(不满意)。 例如,0-01的分数表示三个分析的TS中只有第三个满足此标准。 必须强调的是,质量指令旨在满足所有预期受众的需求,包括患者、其亲属和医务人员。
总体而言,由于GPT-4技术无法进行数据聚合(连续的低血糖事件分别表达),以及在建模预期知识时的不灵活(有时考虑低/高血糖事件,有时不考虑),导致在查看相应TS的图形表示时产生混淆,从而导致摘要中出现无效的陈述。 所提出的系统能够捕捉所有重要的趋势,而GPT-4对此并不感兴趣,同时我们提出的方法不提供不同的统计指标。 相反,我们关注的是GPT-4有时会考虑的语义输出。 尽管如此,在大多数情况下,所有技术都满足对忽略微不足道的测量值、不需要的数据请求、相关事件的时间以及简洁描述的预期要求。 此外,值得注意的是,虽然这项工作中生成的系统可能只显示少量冗余,但GPT-4的方法总是建议含糊不清的建议,并伴有冗余信息。 此外,GPT-4无法以渐进的方式逐步处理一天中数据的总结。 最后,在执行时间方面,虽然GPT-4o聊天机器人大约需要11秒,而GPT-4数据分析插件的性能平均延长到26s,但提出的系统大约需要2秒来生成语言摘要。
我们工作中设计的决策标准集中在评估语言描述本身与其对这些技术可能集成的潜在目标受众的沟通效果,这与[24]相反,[24]规定了专家评估标准;预期输出在提示中使用由首字母缩写和编码组成的模板预定义,而不是侧重于生成熟悉且接近最终用户的语言,导致需要更高的认知努力。 此外,除了他们将专家知识作为输入所付出的努力外,该提案也没有利用大型语言模型的固有特性。 在第一种情况下,避免了GPT-4生成自然语言的能力,在第二种情况下,在定义需要建模的知识时,忽略了该技术所训练的大量数据。
总的来说,GPT-4技术已经展示了一些有用和合理的陈述,尽管由于不合适的代码生成和/或误解,在识别相关现象方面都存在错误或幻觉,以及在提供临床结论或建议方面存在错误。 例如,如[24]所示,在所有血糖水平都高的情况下,将少量变异性视为胰岛素的常规和适当控制。 此时,需要强调的是,提供的提示包含一个单一的请求,即使从大型语言模型获得的输出可以通过迭代过程来完善。 然而,识别这些错误或混淆需要对与数据相关的因果关系与生成的输出进行深入的概述,而这并没有解决我们正在处理的问题。 同样,获得的输出是随机的,因此即使使用模板,相同的时序分析也不会生成相同的响应,并且由于评估基于当前模型,因此语言摘要无法随时间控制。
在深入研究GPT-4模型生成过程的检验时,重要的是要强调所需的巨大计算资源,如[55]中所述,由于复杂性和规模的原因,需要超级计算机,这促使人们讨论优化资源分配以确保环境和经济的可持续性。 因此,需要从可持续发展的角度评估基于GLiDTS的系统以及GPT-4技术,贯穿其与联合国可持续发展目标(SDG)[56] 的一致性。 由于它们可以集成到现实世界场景中,这两个系统都有助于可持续发展目标#3:良好健康与福祉,其特点是为糖尿病管理开发医疗保健领域的新服务。 然而,GPT-4 技术与可持续发展目标#10:减少不平等和可持续发展目标#12:负责任消费和生产的目标之间存在不一致。 这是 GPT-4 产生过程中的高昂货币成本和大量资源消耗的后果,这可能会加剧不平等,并导致不可持续的资源利用。 相反,我们的基于 GLiDTS 的系统通过有效地促进这些目标来证明更好的协调性,因为它符合开放科学标准,并且免费提供,并且需要低资源消耗。
因此,LLM 已经证明它们可以产生可接受的结果,但是解释能力低以及构建它们所需的巨大努力,结果质量低以及无法与可持续发展目标保持一致,导致我们放弃了使用它们。 从这个意义上说,这个提议已被证明是在定性和定量方面都可行、创新、可持续和完整的,证明了在处理的问题领域开发专业工具的必要性。