不知道各位小伙伴在对纵向数据进行分析时,会采用什么分析方法呢?是重复测量方差分析、广义估计方程、线性混合效应模型还是非线性混合效应模型(NONMEM)?今天小编要带来另外一种方法——组轨迹模型(GBTM),它能够识别和描述不同个体或群体随时间变化的发展轨迹。其核心理念是识别总体中具有相似时间变化模式的潜在亚群,这对于在临床研究中发现关键的疾病发展趋势和患者群体特征具有重要意义。
使用传统纵向分析方法处理同一组数据时,通常需要假设整个群体遵循统一的发展参数,从而得出单一的总体发展轨迹。相比之下,GBTM能够根据群体内个体的多样化变化趋势进行更细致的分析,从而将群体划分为多个具有不同特征的发展轨迹。这种方法能够更准确地捕捉和描述群体内部的异质性。
例如一项研究探究了2型糖尿病患者的空腹血糖波动轨迹。研究使用GBTM来识别、构建糖尿病患者的空腹血糖波动轨迹。研究结果将患者分为“低水平平稳组”、“中水平上升组”和“高水平下降组”三个不同的波动轨迹亚组,并分析了影响这些轨迹的因素,如高血压病史、服药依从性、锻炼频率和饮酒习惯等。这项研究为社区糖尿病患者血糖控制、预防不良结局提供了依据。
本次分享的是发表在《Alzheimer’s Research & Therapy》上的“Associations between social and intellectualactivities with cognitive trajectories inChinese middle-aged and older adults: anationally representative cohort study”,旨在探究中国中老年人社交和智力活动频率与认知轨迹之间的关联。
研究设计与人群
数据来源为中国健康与养老追踪调查(CHARLS),一项旨在收集中国45岁及以上中老年人家庭和个人高质量微观数据的纵向调查项目。(我们还没有仔细讲过CHARLS这个数据库,有兴趣的小伙伴可以给我们后台留言,后期我们会专门写一篇关于CHARLS的文献解读)
基线调查于2011-2012年在中国28个省150个县的17708名参与者中进行,收集了社会经济地位、生活方式、药物、健康状况和功能评估等数据。
最终纳入8204名参与者(4289名男性和3915名女性)拥有完整的基线数据和至少一次认知功能重新评估(第2-3波)。
图1 研究流程图
基线特征
8204名参与者的平均年龄为60.09±6.37 岁;52.3%的参与者为男性。样本中,22.2%的参与者社交活动得分≥3,7.4%的参与者智力活动得分≥3。
表1 CHARLS中老年人研究队列基线特征
认知老化的轨迹模型
建立轨迹模型的第一步就是确定组轨迹的数量,以解释该人群中整体认知评分的异质性。研究预先设置了最多六个轨迹组。使用年龄作为时间尺度将模型从一个组轨迹拟合到六个组轨迹。为了确定具有最佳不同认知轨迹数量的模型,首先通过为每个认知结果调整多项式模型(最多三次模型)来建模认知得分的纵向轨迹,并以年龄为独立预测因子。
然后通过极大似然法中的赤池信息准则(AIC)、**贝叶斯信息量准则(BIC)**进行组轨迹数量筛选。AIC的思想是在考虑模型的拟合优度的同时,也考虑模型的简洁性,避免过拟合或欠拟合的问题。BIC的思想是通过一个特定的惩罚项来减少模型复杂性的影响,从而避免过拟合现象。
结果表明具有四组轨迹的模型的BIC最低(BIC=−32098.63),然而,其中两组轨迹的平均后验概率小于 0.7,通常平均后验概率(APP)超过70%,表明模型拟合良好。因此最终选择了三组轨迹的GBTM模型为最佳模型。
表2 CHARLS 中老年人整体认知功能组轨迹拟合度统计
图2显示了基于整体认知分数的三种纵向认知功能模式:第1类,“持续低”(18.9%);第2类,“持续中等”(38.9%);第 3 类,“持续高”(42.2%)。
图2 老年人整体认知得分随年龄增长的平均轨迹
轨迹亚群基线特征
与“持续高”轨迹组相比,“持续低”轨迹组参与者更有可能年龄较大、为女性、教育和收入水平较低,并且抑郁症状、日常潜水活动受限以及视力或听力障碍的患病率较高。
表3 CHARLS中老年人不同组认知功能变化轨迹的基线特征
基线智力、社交活动分数和认知轨迹的逻辑回归
为了了解不同类别老年人的情况与认知功能的关联,研究采用多项逻辑回归模型估计社交和智力活动与认知功能测量轨迹之间的关联。多变量调整模型包括以下协变量:社交和智力活动得分、基线年龄、性别、教育程度、婚姻状况、居住地、家庭收入、吸烟、饮酒、体重指数、健康状况自我报告、合并症、抑郁症状、日常生活活动受限、视力障碍和听力障碍。
与不参加社交活动的参与者(得分=0)相比,报告经常参加社交活动(得分≥3)的成年人具有更好的认知轨迹,整体认知功能“持续低”和“持续中等”轨迹的多变量调整OR分别为0.79和0.76。经常参加智力活动(得分≥3)的相应OR为“持续低”认知功能0.54和“持续中等”认知功能0.62。
表5 智力活动和社会活动与认知功能轨迹组成员关系的多项逻辑回归分析
年轻人(年龄<65 岁)与老年人(年龄 ≥ 65 岁)之间以及男性与女性之间的社会/智力活动与认知轨迹组的关联相似。
图4 按年龄组和性别分层分析智力活动和社会活动与认知功能轨迹组成员之间的关联
总结
本文的数据来源是CHARLS,具有全国代表性,为文章的数据支撑提供了坚实的背书。并且,不同于传统纵向数据的分析方法,文章采用了组轨迹模型(GBTM),它可以识别和描述不同群体在随时间变化的某个变量上的发展轨迹,适合处理个体在一段时间内表现出不同模式或趋势的数据,从而帮助研究者发现潜在的异质性群体,并且本文在模型的建立、选择和评价方面的叙述详尽,非常值得我们学习借鉴。
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。