目录
第1章 绪论 1
1.1 研究背景 2
1.2 研究目的 3
1.3 文献回顾 3
1.3.1 轻度认知功能障碍的定义 3
1.3.2 轻度认知功能障碍的影响因素 3
1.3.3 Logistic回归和决策树在医疗领域的应用 3
第2章 研究方法 5
2.1 研究类型基于Logistic回归和决策树 ,构建模型 脑小血管疾病患者轻度认知功能障碍 5
2.1 研究对象 5
2.3 样本量 5
2.4 研究工具 5
2.4.1 蒙特利尔认知量表 5
2.4.2 匹兹堡睡眠质量量表 5
第3章 研究结果 6
3.1研究对象一般基本情况 6
3.2 MCI患者进展为AD的危险因素 7
3.2.1人口学特征 7
3.2.2 生活行为习惯 8
3.2.3 相关疾病既往史 9
3.2.4 量表评分 10
3.2.5 生物学指标 10
3.3 Logistic 回归分析 11
3.5决策树分析 12
第4章 讨论 15
第5章 总结和展望 16
5.1 总结 16
5.2 展望 17
结束语 17
参考文献 18
第1章 绪论
1.1 研究背景
CSVD在中文中被翻译为脑小血管病,这是一种对我国人民健康构成严重威胁的普遍疾病,由于其高度的多发性和隐蔽性,常常被患者和临床医生所忽略。脑小血管是脑组织血液供应的核心部分,并对维护大脑功能发挥着至关重要的角色。目前对该病尚无特效疗法。CSVD是一种影响到脑小动脉、分支小动脉、毛细血管和小静脉的疾病,其临床症状包括情绪不稳定、行走方式不正常、排尿不正常、脑卒中和痴呆等一系列综合症状[20]。
通常情况下,这类普遍存在的疾病的成因是多种多样的。从病理学的角度看,CSVD可以被分类为6个不同的类型,其中有80%是I型,也就是小动脉硬化,这与高血压和年龄有密切关系。这种类型的主要症状包括纤维素的坏死、脂质的透明变性、小动脉的粥样硬化、微动脉瘤以及小动脉的节段性结构混乱或解体[11]。随着人们对其认识的加深以及各种检测手段的应用,该病的发病率呈逐渐上升趋势。在CSVD的临床实践中,我们仍然面临着疾病发生的机制尚不明确、缺少与临床紧密相关的动物实验模型、缺少客观且定量的诊断准则、以及缺少早期的预警和预后评估技术等一系列问题。
多位学者已经对CSVD患者轻度认知障碍的各种影响因素进行了深入研究,这些因素包括患者是否患有糖尿病、是否有心血管疾病的病史、是否存在焦虑和抑郁症状,以及是否有营养缺乏等。或者可以从患者的外部环境中寻找疾病的迹象,比如:患者的患病年龄、受教育的时间、患者的遗传病史等多个方面进行探查[6]。总体来说,目前国内外关于CSVD患者认知功能影响因素的研究结果尚未明确。从临床视角来看,轻度认知功能障碍的诊断和预防大多依赖于患者自身的经验,因此很难准确地识别出患有轻度认知功能障碍的特定群体。另外,由于研究样本数量较少,导致无法全面客观地评估重度认知功能障碍人群。因此,我们还需要深入研究CSVD患者认知障碍的各种影响因素,以便更准确地识别出高风险的患者,并对他们实施早期的管理和预防措施。
在统计学领域,Logistic回归是对各种影响因素进行研究和考察的最常用方法之一,它能够预测某一事件发生的概率和可能性。在传统的线性回归模型当中,一般都采用主成分分析法来提取特征因子,然后进行线性变换得到最终回归系数。近年来,数据挖掘技术的崛起使得决策树方法作为一个子技术得到了广泛应用。决策树方法能够识别出数据中最大的属性变量,进而用于研究影响因素,同时其可视化功能也使得输出结果更为直观。另外一种就是贝叶斯网络,通过对输入样本进行学习并建立相应模型,进而分析出最终的结论。现在,这两种技术已经在医学研究领域得到了广泛的应用。
在过去的几年中,CSVD患者的发病率持续上升,并且随着他们出现的认知问题,治疗的效果和复杂性都有所增加。由于重度认知障碍会造成严重的社会经济问题以及心理上的负担,所以临床医生应积极采取措施改善患者的生活质量,减轻病情带来的不利后果。然而,轻度认知障碍具有一定的可逆性,可以通过提前了解其危险因素,在CSVD患者中进行早期的监控和预防,从而延缓轻度认知功能障碍的进一步发展,减少对患者的伤害。目前国内关于此类疾病的相关研究较少,且主要集中于发病机制以及诊断等方面,而从临床角度分析其病因尚不明确,因此也未形成统一意见。基于当前的研究趋势,我们计划采用Logistic回归和决策树模型来更精确地挖掘CSVD患者认知障碍的相关影响因子,从而为医疗专业人员在面对CSVD患者出现的轻度认知障碍时提供坚实的科学支撑。
1.2 研究目的
1.利用Logistic回归和决策树方法,我们分析了CSVD患者出现轻度认知障碍的各种可能原因。
2.我们构建了影响CSVD患者轻度认知功能障碍的Logistic模型和决策树模型,并对这两种模型进行了深入的比较分析。
3.我们对CSVD患者的认知功能进行了全面评估,并深入分析了他们在认知方面所遭受的损害程度,以便预测CSVD患者可能出现的轻度认知障碍。
1.3 文献回顾
1.3.1 轻度认知功能障碍的定义
轻度认知功能障碍(mild cognitive impairment MCI)描述的是一个人的记忆或其他认知功能逐渐衰退的情况,但这并不会对其日常生活能力产生负面影响,同时也没有达到痴呆的确诊标准。随着社会老龄化趋势的加剧,老年痴呆已逐渐成为继癌症和心脑血管疾病后,对老年人生命健康和生活品质产生最大威胁的疾病。我国目前的老年痴呆患者数量为600万,这占据了全球痴呆患者总数的25%[17]。因此,对重度认知障碍患者进行干预治疗已刻不容缓。轻度的认知功能障碍被视为正常衰老和痴呆之间的过渡阶段,它是痴呆的早期阶段,并且是阿尔茨海默病患者中的高风险群体。
1.3.2 轻度认知功能障碍的影响因素
在轻度认知功能障碍的患者群体中,BMI、吸烟历史和糖尿病历史的分布在不同体质类型之间存在统计学上的显著差异,然而,在年龄、性别、教育水平、饮酒历史、高血压和高脂血症的病史分布方面,各组之间并没有统计学上的显著差异。
对于轻度认知功能障碍体重指数偏低、肥胖、有吸烟历史以及患有高血压、糖尿病、高脂血症的MCI患者,他们的整体认知功能表现得更为不佳。在不同的认知领域中,女性患者在命名能力上的损害更为明显,而文化水平较低的患者在注意力和语言能力上的损害更为明显[11]。吸烟历史的MCI患者在视力空间、执行功能和语言能力上的损害更为显著,而有饮酒历史的MCI患者在命名能力上的损害相对较轻。高血压患者在视力空间、执行功能、抽象能力和延迟回忆方面的损害更为明显[11]。糖尿病患者在语言能力、延迟回忆和定向力上的损害更为显著,而高脂血症患者在延迟回忆方面的损害更为明显[11]。。
1.3.3 Logistic回归和决策树在医疗领域的应用
近些年,随着数据挖掘技术的快速发展和跨学科领域的持续交流,Logistic回归和决策树已经从机器学习领域中崭露头角,为认知功能障碍的深入研究提供了大量的数据整合支持。同时,越来越多的国内外学者也在这两种方法的基础上,进行了大量关于认知功能障碍影响因素的研究[3]。
Logistic回归在研究影响因素方面表现出极高的有效性,并在多个临床医学研究领域得到了广泛应用。它能较好地反映出多个变量之间的相关性和因果关系,因此被广泛使用。然而,在Logistic回归模型处理众多类别的变量时,如果模型中存在高度类似的变量,它们之间可能会互相干扰,从而导致分析结果的不精确性。为了减少这种情况出现的概率,人们开始采用机器学习技术来对其进行预测,进而提高了回归估计精度。除了传统的Logistic回归方法,机器学习还采用了决策树、神经网络和随机森林等技术来处理相关的难题,从而为医疗行业提供更为精准的服务。本文将介绍这些不同的回归方式,并对其进行比较和评价。在医学领域,Logistic回归被认为是最常用的统计方法之一。它主要用来研究在一个给定条件下某一疾病发生概率和患病人数之间的关系,以及疾病与其他因素间的相互关联。Logistic回归中的因变量属于分类变量,其分类数量是不固定的,而采用二分类的方法更为普遍,并且解释起来更为简单。在很多情况下,我们需要对一个样本进行多个类别之间的比较。因此,在实际应用中,二分类的Logistic回归是最常被采用的方法[9]。Logistic回归在处理变量间的共线性问题上也有其固有的不足。因此本文将使用最小二乘支持向量机方法对疾病进行分析与建模,并通过实例证明该模型在疾病诊断方面具有较好的效果。Logistic回归被广泛应用于预测并发症的研究,例如用于预测老年软组织肉瘤患者手术并发症的风险。
决策树的主要功能是对结果进行分类和预测,它以树状图的方式所示,使其看起来更为清晰和便捷。本文将通过构建一个基于决策树的数据挖掘系统来分析决策规则中所蕴含的知识以及其意义所在。位于顶端的根节点可以被视为产生特定结果的首个测试条件,而其他的中间节点则可以代表路径上对结果的分类,最终到达末端的叶子节点会产生相应的输出结果[3]。决策树方法已经广泛应用于数据挖掘、模式识别以及医学等各个领域中。得益于决策树模型的构建,其生成的结果既直观又清晰,分类流程也相当简单明了,这使得该模型特别适用于某些新兴的理论和研究领域,因此在最近几年里,它在医疗界的应用变得越来越常见。
事实上,Logistic回归和决策树在临床医学研究中都扮演着至关重要的角色,它们各自都有其独特的长处和短处。决策树是一种基于规则推理技术的统计方法,它将决策过程分为若干子步骤来实现。Logistic回归的输出结果能够通过OR值客观地呈现出危险因素的信息,这使得分析和理解变得相对简单。然而,Logistic回归在处理众多的多类变量以及可能出现的多变量共线性问题上表现不佳。决策树虽然有良好的分类能力,但是由于需要输入足够多的样本信息以及复杂的计算过程,导致它并不适合于大规模人群的预测。决策树不只是能够处理众多的多种变量,它还能对非线性和高度相关的数据进行深入分析,无需预先处理数据。尽管模型的稳定性相对较高[3],但它不能输出所有危险因素的OR值,这限制了结果的解读。在实际应用中,由于多种原因导致许多临床医生对于如何选择合适的方法来判断出是否有重度认知障碍的发生以及具体是何种疾病所致,缺乏一定的了解。因此,本研究选择了结合Logistic回归和决策树的方法来探讨CSVD患者轻度认知功能障碍的各种影响因素。通过这两种方法的综合应用,我们成功地提高了研究结果的准确度和可信度。
第2章 研究方法
2.1 研究类型
该研究为描述性研究。
2.1 研究对象
被诊断有脑小血管病症,并伴随认知功能障碍的患者。本课题收集江西南昌市5个社区(洪鹰社区、洪园社区、洪东社区、洪招 社区、洪翔社区)2015-2017年随访的428名MCI患者的转归情况。
2.3 样本量
考虑临床上的可行性,以及参考了众多相关文献,本研究采用多种变量,可分为一般变量,包含:年龄、性别、遗传病史;生理状况,包含:是否患高血压、是否患高血糖、是否营养不良、焦虑和抑郁情况;具体生理数据,包含:血红蛋白、血钠、尿素指数。 研究对象入选标准:①≥60岁居民;②在调查地有常住户口,调查时居住在 调查地,或在调查地无常住户口,但调查时居住在该地已满6个月者。 为满足决策树算法与Logistic回归所需样本量,本研究拟收集100例病症患者样本数据。
2.4 研究工具
2.4.1 蒙特利尔认知量表
可采用蒙特利尔认知量表来评测研究对象的认知功能,它对于筛查出轻度认知功能障碍患者具有一定的敏感性。每份蒙特利尔认知量表限制在10分钟内完成。对受教育年限在12年及以下的被测试者加1分,得分最高30分。最终得分大于26分为正常,18~25分初步判定为轻度认知功能障碍。
2.4.2 匹兹堡睡眠质量量表
可采用匹兹堡睡眠质量量表来评定患者近1个月以来的睡眠质量状况。本研究考量了5个部分,分别为入睡时间、睡眠时长、睡眠效率、睡眠障碍、睡眠质量。各部分分数累计,最终分数越高可表示睡眠质量越差。
第3章 研究结果
3.1研究对象一般基本情况
在进行基线调查时,南昌市洪都社区共收集到428名60岁及以上的MCI患者。经过2年的随访,总共发现AD 121例(占28.3%),其中240例(占56.1%)转为正常,0例(占0.0%)死亡,35例(占8.2%)因搬迁、失去联系、拒绝随访等原因失去联系,共计32例(占7.5%)。本项目主要采用流行病学方法进行分析,通过对健康相关行为改变与生活方式危险因素关系的探讨,为制定防治措施提供科学依据。在排除了正常、死亡和失访的随访人群后,共有361名MCI患者被纳入本次研究,其中男性154名(占42.7%),女性207名(占57.3%),年龄在60-69岁之间的患者94名(占26.0%),70至79岁的患者189名(占52.4%),以及80岁及以上的患者78名(占21.6%)。本项目以年龄作为主要因素对老年人群进行分析和探讨。表3-1详细列出了所有研究对象的基本情况统计数据。
表3-1 361 例MCI患者的性别、年龄等人口学特征分布
变量 4 倒数 构成比(%)
年龄(岁) 60~ 94 26.0
70~ 189 52.4
80~98 78 21.6
性别 男 151 42.7
女 207 57.3
文化程度 文盲 72 19.9
小学 95 26.3
中学/中专 168 46.5
大专及以上 26 19.9
婚姻状况 配偶在世 247 68.4
丧偶\离婚\单身 144 31.6
职业 工人 264 73.1
农民 44 12.2
干部 14 3.9
科技或者科研人员 9 2.5
其他 30 8.3
可支配收入 0~ 44 12.2
1000~ 89 24.7
2000~ 168 46.5
3000~ 60 16.6
*:可支配收入是指老年人的工资收入+子员支付给老人的赡养费+其它收入来源
3.2 MCI患者进展为AD的危险因素
3.2.1人口学特征
在AD组的研究对象中,年龄在60至69岁之间的45名参与者(占37.2%)的年龄明显低于对照组的60.0%。同时,AD组的参与者年龄也明显高于对照组,这种差异在统计学上是有意义的(X2=10.68,p<0.001)。在121名进展为AD的患者中,36名(占29.8%)是男性,62名(占70.2%)是女性,而女性的比例明显高于对照组(占50.8%)。两组在性别、学历、婚姻状况方面比较无显着性差异,但随着年龄增加,不同类型人群之间的差异性越来越大。49名AD患者(占40.5%)的教育水平并未达到小学标准,被归类为文盲;其中35名达到了小学教育水平(占28.9%),34名(占28.1%)达到了中学或中专教育水平,而3名(占2.5%)具有大专或更高的教育背景;在对照组中,拥有小学或更高学历的人数为217例,占比91.4%,而仅有23例,占比9.6%,被归类为文盲,这种差异是显著的(X2=57.94p<0.001)。在不同类型人群中,“无工作”组、“有工作”组和未就业人员之间年龄上存在显着差别,即无工作的人与就业人员相比具有明显的优势。在AD组和对照组的研究中,参与者的主要职业都是工人,这两组的比例分别是62.8%和78.3%;与对照组相比较,他们从事脑力劳动者所占的百分比明显升高,且随着年龄增大,这一趋势更为显着。在AD组中,丧偶、离婚和单身的比率(38.9%)明显高于对照组(26.2%)(P=0.024)。在AD组中,有36.4%的人的人均可支配收入低于1000元,而在对照组中,这一比例超过了1000元。具体来说,有54.6%的人每月的可支配收入介于2000-2999元之间,这种差异在统计学上是有意义的(X2=100.21p<0.001),更多的细节可以在表3-2-1中找到。
表3-2 AD组与对照组的一般情况
变量 AD组(n=121) 对照组(n=240) X2 P
年龄[n(%)]
60~ 45(37.2) 144(60.0)