2024中国生物信息学十大进展揭晓:从脑图谱到AI病毒,解码生命科学的突破性跨越
一、*引言*
在生命科学的浩瀚星海中,生物信息学正以前所未有的速度绘制着解码生命的蓝图。2024年3****月,由**《Genomics, Proteomics & Bioinformatics》(GPB)组织评选的****“中国生物信息学十大进展”****正式揭晓。**这一年度盛事不仅汇聚了国内外百余名专家的智慧与严谨评审,更展现了中国科研团队在生物信息学领域的创新活力与全球影响力。从量子级精度的蛋白质动力学模拟到首个整合的人类跨脑区细胞图谱,从AI驱动的病毒“暗物质”发现到泛癌种免疫细胞异质性的系统性解析,每一项成果都标志着中国科学家在破解生命密码、推动精准医学和疾病治疗中的卓越贡献。这些突破性进展不仅夯实了基础研究的基石,更在临床转化、技术工具和资源平台建设上开辟了新路径,为全球生命科学研究的未来注入了强劲动能。接下来小编带大家简要梳理本年度十大进展的核心突破,揭开它们如何以数据为笔、以计算为尺,重塑生命科学研究的边界。
*二、**2024**中国生物信息学十大进展*
*1**、人类跨脑区细胞图谱—**Brain Cell Atlas***
单细胞技术的快速发展使得解析脑区间的细胞异质性成为可能,但跨数据集整合仍面临注释标准不统一的挑战。**2024年8月,广州国家实验室苗智超团队与中山大学刘胜团队在《Nature Medicine》发表研究,整合了70项人脑研究的1130****万单细胞数据,构建了首个跨脑区整合的“人类脑细胞图谱”。**研究首次在成人海马体中鉴定出表达SOX4和HES1的神经祖细胞样群体,为成年神经发生的存在提供了关键证据;同时发现表达PCDH9的小胶质细胞亚群在额叶皮层与海马体中呈现截然不同的染色质可及性特征,提示脑区微环境通过表观调控塑造小胶质细胞的功能特化。该图谱通过自主研发的层次注释算法scAnnot实现了跨数据集的细胞类型精准匹配,为阿尔茨海默病等疾病的靶向治疗提供了新的分子靶点。
这项研究的突破在于将机器学习与生物学先验知识相结合:scAnnot算法通过多层级特征基因筛选,解决了跨平台数据批次效应和注释粒度不一致的问题。海马体神经祖细胞的发现可能解释成年大脑的可塑性机制,而小胶质细胞的区域功能分化则暗示神经退行性疾病中病灶特异性的细胞应答模式。例如,PCDH9在阿尔茨海默病淀粉样斑块周围的表达动态值得深入探究。未来该图谱可进一步整合空间转录组数据,解析神经环路形成中细胞互作的时空规律,并为脑机接口技术中的细胞功能模拟提供基础模型。
图1 人类跨脑区细胞图谱—通过大规模数据整合发现稀有细胞类型
*“**推荐理由:构建了首个整合的**“**人类跨脑区细胞图谱**”**,是国际人类细胞图谱计划的重要一环****”*
**
**
*2**、肠道真菌疗法曙光:三株菌撬动炎症疾病治疗***
肠道真菌在代谢调控和免疫平衡中扮演重要角色,但其功能研究长期受限于基因组资源的匮乏。**2024年4月,大连医科大学王超、马骁驰团队牵头,联合中国科学院上海药物研究所果德安团队和法国农业科学研究院Francis Martin团队,在《Cell》发布首个“培养肠道真菌(CGF)基因组纲要”,涵盖760个基因组、206个物种(含69****个新种)。**通过分析超1.1万例肠道宏基因组,团队发现炎症性肠病(IBD)患者中念珠菌属丰度显著升高,并在小鼠模型中证实特定真菌可加剧肠道炎症。该资源首次系统性揭示了真菌的代谢多样性,例如曲霉属物种在次级代谢产物合成通路上的显著扩张,提示真菌可能通过小分子代谢物与宿主互作。
此项研究的深远意义在于填补了肠道微生物组研究的“真菌空白”。CGF目录不仅为宏基因组数据注释提供了参考,更推动了真菌功能从群落生态学向分子机制研究的转型。例如,研究发现的念珠菌-IBD关联提示真菌或可作为疾病诊断的生物标志物。未来,结合代谢组学解析真菌特异性代谢物(如短链脂肪酸衍生物)的免疫调控机制,可能为IBD治疗提供新靶点。此外,该资源为合成生物学提供了丰富的酶库,或可助力开发基于真菌代谢途径的药物生产平台。
图2 人肠道真菌组及疾病关联性分析
“*推荐理由:利用培养组技术得到了迄今最大的人类肠道真菌参考基因组目录*”
*3**、量子计算赋能蛋白质折叠:**AI**模拟精度突破***
分子动力学模拟长期受限于量子计算规模与经典力场精度之间的矛盾。**2024年11月,微软研究院王童、邵斌团队在《Nature》发布AI2BMD****系统,通过蛋白质分块策略和机器学习力场,首次实现了万原子级别生物大分子的从头算分子动力学模拟。**该系统对13,728原子的氨基肽酶进行300ns模拟,成功捕捉到α螺旋到β折叠的构象转变路径,其自由能计算结果与核磁共振实验误差小于0.5kcal/mol。与传统密度泛函理论相比,AI2BMD将计算效率提升了4个数量级,且力场误差降低至0.078kcal/mol/Å。
技术突破源于分块策略的巧妙设计:将蛋白质拆解为21种标准化单元,分别训练ViSNet模型并整合全局相互作用,既避免了传统碎片方法的边界误差,又实现了力场的跨蛋白泛化。例如,在模拟新冠病毒刺突蛋白与ACE2的结合过程中,系统精准预测了S1亚基的变构调控热点。未来该技术可应用于药物耐药突变机制的动态解析,或通过模拟GPCR蛋白的构象变化加速偏向性配体设计。此外,与冷冻电镜数据的结合有望实现从静态结构到动态功能的全维度解析。
图3 AI2BMD动力学模拟流程图
*“推荐理由:**AI**2**BMD**首次实现量子级别精度的蛋白质动力学模拟”*
**
**
*4**、**lncRNA**进化密码破译:跨物种功能同源新发现***
长链非编码RNA(lncRNA)的功能研究长期受限于其低序列保守性带来的进化追踪难题。**2024年1月,清华大学张强锋团队与北京大学汪阳明团队、席建忠团队在《Nature》子刊发表突破性研究,提出整合基因组位置与RNA结合蛋白(RBP)结合模式的“coPARSE-lncRNA”筛选方法,并通过CRISPR-Cas12a敲除与功能回补实验验证了斑马鱼与人类lncRNA****的功能保守性。**研究发现,尽管人类与斑马鱼间仅有17个lncRNA存在序列相似性,但570个人源coPARSE-lncRNA的同源分子在斑马鱼中展现出相似的细胞增殖调控能力,且这些功能依赖于保守的RBP结合位点。例如,敲除人类coPARSE-lncRNA导致的细胞增殖缺陷可被斑马鱼同源分子挽救,反之亦然。这一成果颠覆了传统依赖序列比对的同源分析范式,揭示了lncRNA功能进化的核心机制。
该研究的创新之处在于将功能元件的保守性作为跨物种分析的核心指标。通过结合RBP互作图谱与基因组共线性分析,团队成功绕过了序列保守性低的限制,为lncRNA的功能注释提供了新思路。未来,此方法或可拓展至疾病相关lncRNA的靶向干预,例如通过筛选保守RBP结合位点设计小分子药物。此外,研究提示lncRNA的功能模块可能以“拼图”形式存在于不同物种中,这为解析复杂调控网络提供了新的视角。若进一步结合单细胞多组学数据,或许能揭示lncRNA在不同细胞类型中的动态互作规律,推动精准医学向非编码RNA领域延伸。
图4 鉴定不同物种之间同源lncRNA方法(lncHOME)的计算流程
“*推荐理由:开发的***lncHOME**方法可鉴定不同物种间的同源长非编码***RNA*”
*5**、结构变异检测新纪元:图像算法开启精准分型***
长读长测序技术的普及使得复杂结构变异(SV)的检测成为可能,但传统方法在灵敏度和准确性上存在瓶颈。**2024年3月,西安交通大学叶凯团队在《Cell》子刊推出SVision-pro****算法,其核心创新在于将基因组差异转化为可视化图像,并利用神经网络实现多任务联合分析。**该工具无需依赖先验模型即可识别简单和嵌套SV,在孟德尔一致性(97%以上)和低频SV检测灵敏度上显著优于现有方法。例如,在模拟数据中,SVision-pro对复杂SV子组分的识别准确率高达96.6%,远超同类工具的53.2%。此外,其独特的“基因组对比图像”策略成功解析了肿瘤样本中携带多个嵌套组分的致病性SV,为癌症基因组异质性研究提供了高分辨率工具。
SVision-pro的突破不仅体现在算法性能上,更在于其设计理念的革新。通过将基因组数据转化为RGB通道图像,团队巧妙地将生物信息学问题转化为计算机视觉任务,这为跨学科方法开发树立了典范。未来,该技术或可整合空间转录组数据,实现SV的三维基因组定位,揭示结构变异与表观调控的关联。此外,SVision-pro的低测序深度适应性(最低支持1%等位频率)使其在液体活检和早期癌症筛查中具有潜在应用价值。若结合群体基因组数据,该工具还可能揭示SV在进化中的选择模式,为人类遗传多样性研究提供新线索。
图5 SVision-pro方法的序列图像化模块和神经网络识别模块
*“推荐理由:基于“序列**-**图像”转换策略的**SVision-pro***创新算法支撑大规模专病队列和临床诊断数据中关键致病结构变异的发现****”
*6**、**GenBase**国家基因库:数据主权争夺的“中国方案”***
随着测序技术的爆发式增长,数据存储与标准化提交成为全球生物信息学的基础设施挑战。**2024年4月,国家生物信息中心-国家基因组科学数据中心鲍一明、唐碧霞团队发布GenBase数据库,支持中英双语提交和实时验证,已整合6.8万条核苷酸序列及68万条蛋白注释。该平台创新性地采用Excel格式简化元数据录入,并通过与GenBank****的数据交换机制实现全球同步。**例如,用户可通过本地化界面快速提交SARS-CoV-2变异株序列,显著降低了非英语研究者的参与门槛。
GenBase的推出标志着中国在生物数据主权领域迈出关键一步。其设计兼顾了国际标准与本土需求,例如针对中国特有物种(如大熊猫)的注释优化,为区域生物多样性研究提供了专属支持。未来,若引入区块链技术实现数据溯源,或将增强其在知识产权保护中的作用。此外,GenBase的实时验证系统可扩展至临床病原体监测,助力传染病预警系统的建设。该平台还可能成为合成生物学标准化元件库的基石,加速人工生命系统的设计与优化。
图6 GenBase—规范、标准、智能、用户友好的基因序列数据汇交资源平台
*“**推荐理由:国家生物信息中心核心数据库之一,**对标**GenBank**,立足中国、服务全球”***
**
**
*7**、单细胞基础模型**scFoundation**:重构生命数字化的“通用语言”***
单细胞数据的指数增长催生了分析方法的智能化需求。2024年6月,清华大学张学工团队、马剑竹团队与百图生科宋乐团队在《Nature Biotechnology》发布首个单细胞转录组基础模型scFoundation**,基于5000万细胞数据训练出覆盖1.9万基因的亿级参数模型。**其创新的“读长深度感知(RDA)”预训练任务,通过模拟不同测序深度的数据变异,将低深度样本的基因表达预测误差降低50%。在跨数据集细胞聚类任务中,scFoundation的聚类一致性较传统方法提升30%,且在药物响应预测中成功区分了肿瘤细胞亚群对化疗药物的敏感性差异。
scFoundation的里程碑意义在于将单细胞分析推向“预训练-微调”的新范式。模型生成的基因嵌入特征可揭示隐藏的调控网络,例如通过注意力权重识别与细胞命运决定相关的关键基因对。未来,整合多模态数据(如染色质可及性)或能构建更全面的细胞“语言模型”,实现从转录组到表型的端到端预测。此外,该模型的低深度增强能力有望降低单细胞测序成本,使大规模临床队列研究成为可能。若进一步开源模型参数,或将激发社区开发针对罕见病或神经发育疾病的专用分析工具。
图7 scFoundation预训练原理及其下游应用场景
*“**推荐理由:全球首个参数规模超亿的单细胞转录组预训练模型**scFoundation**极大推动了**AI**驱动的科学研究范式转变”*
**
**
*8**、泛癌种**B**细胞图谱:免疫治疗靶点再定义***
肿瘤微环境中B细胞的功能长期以来被低估,尽管其在抗体分泌和免疫调控中的关键作用逐渐被认识。**2024年6月,北京大学张泽民、王东方团队与深圳湾实验室陈敏敏团队在《Cell》发表研究,整合了19种癌症类型、649名患者的51.1万B细胞单细胞数据,构建了首个泛癌肿瘤浸润B****细胞(TIBs)图谱。**研究发现,B细胞在肿瘤中存在显著的异质性,其中肿瘤相关非典型B细胞(TAABs)亚群表现出高克隆扩增能力,并通过与活化的CD4 T细胞形成紧密互作网络,显著提升患者的免疫治疗响应率和预后。这一发现揭示了B细胞在抗肿瘤免疫中不仅是抗体的生产者,更可能通过调控T细胞活性参与适应性免疫应答。研究还观察到IgG偏向的抗体分泌细胞亚型,暗示肿瘤微环境可能通过表观调控重塑B细胞分化路径。该图谱填补了泛癌水平B细胞研究的空白,为靶向B细胞亚群的联合免疫治疗提供了理论依据,未来或可通过调控TAABs功能增强CAR-T疗法的协同效应。
从技术层面来看,研究通过多组学整合(单细胞转录组、BCR库重建、空间组学)突破了传统单数据集的局限性,尤其是利用计算重构的BCR库揭示了克隆扩增与免疫微环境的空间关联。TAABs的高增殖特征可能与其表观代谢重编程相关,而IgG偏向性则提示肿瘤微环境中细胞因子的定向调控作用。这些发现不仅挑战了传统T细胞中心论的免疫治疗策略,还提示B细胞异质性可能是癌症免疫治疗个体化差异的重要来源。未来研究需进一步解析TAABs与三级淋巴结构的空间定位关系,探索其作为生物标志物在临床分型中的应用潜力。
图8 生物信息学整合分析揭示表型各异的肿瘤浸润B细胞亚类
*“**推荐理由:构建高质量**肿瘤浸润**B**细胞的泛癌单细胞图谱,为**B**细胞的异质性及其抗肿瘤免疫反应提供了新的见解”*
**
**
*9**、肿瘤起源新理论:多克隆竞争改写癌症演化史***
癌前病变的克隆演化机制长期存在“单克隆起源”与“多克隆协作”的理论争议。**2024年10月,中国科学院深圳先进技术研究院胡政团队与中山大学贺雄雷团队、何真团队合作在《Nature》发表研究,利用碱基编辑技术SMALT对26****万肠道细胞进行谱系追踪,结合单细胞测序揭示了结直肠癌前病变从多克隆协同到单克隆主导的动态转变。**研究发现,在炎症驱动的早期病变中,数十个独立细胞谱系通过WNT和NOTCH通路形成互作网络,共同促进多克隆扩张;而单克隆病变则伴随细胞间通讯通路的显著简化,且基因组不稳定性显著升高。这一发现颠覆了传统线性演化模型,提示早期干预应针对多克隆群体的协同信号而非单一驱动突变。
SMALT技术的创新性在于将碱基编辑效率提升30倍,实现了高分辨率克隆追踪。多克隆阶段的细胞协作可能通过旁分泌IL-6或外泌体miRNA传递促生长信号,而单克隆转化则与染色体碎裂(chromothripsis)事件密切相关。该研究为癌前病变的预防性治疗提供了新思路:例如,通过阻断多克隆群体间的CCL5-CCR5轴可能延缓恶性转化。未来需在类器官模型中验证这些互作机制,并探索表观遗传药物在早期干预中的潜在价值。
图9 高分辨率谱系追踪揭示肿瘤从多克隆至单克隆转换的进化发展模式
*“**推荐理由:建立**了哺乳动物细胞高分辨谱系追踪技术和算法,突破了经典的肿瘤单克隆起源理论,首次提出从多克隆到单克隆转变的早期肿瘤演化模式**”***
**
**
*10**、**AI**破译病毒“暗物质”:全球最大**RNA**病毒库诞生***
RNA病毒的高突变率使得传统序列比对方法难以检测其真实多样性,尤其在极端环境中。2024年9月,阿里云智能团队与中山大学施莽团队在《Cell》发表研究,开发了融合序列与结构特征的深度学习算法LucaProt**,对10487个生态系统的宏转录组数据进行分析,发现了16.2万种潜在RNA病毒和180个病毒超群。**这些病毒广泛分布于深海热液喷口(47°C以上)和南极冰层等极端环境,其中部分病毒的RdRp基因长度超过47kb,且携带CRISPR-like抗宿主防御系统。研究证实了RNA病毒在碳氮循环中的生态功能,并重建了多个未知病毒门的进化树。
LucaProt算法的核心创新在于将Transformer架构与蛋白质三维结构预测相结合,突破了传统HMM模型对序列相似度的依赖。例如,在热泉样本中发现的Thermoviridae超群可能利用反向转录酶实现RNA-DNA杂交复制,这为生命起源研究提供了新线索。该技术未来可用于监测新发传染病病原体的跨物种传播风险,例如通过识别人畜共患病毒的结构保守域预测潜在宿主跳跃事件。此外,极端环境病毒的代谢通路重构可能为合成生物学提供新型酶元件。
图10 AI识别潜在RNA病毒
*“**推荐理由:利用人工智能技术发现了**180**个病毒超群和**16**万余种全新**RNA**病毒,将已知病毒种类扩充了近**30**倍**”*
**
**
*三、总结*
2024年的中国生物信息学十大进展,既是对过去一年科研探索的凝练,更是对未来方向的指引。这些成果凸显了三大趋势:其一,****多学科交叉融合*成为创新引擎,如AI技术与传统生物学的结合在病毒发现、蛋白质模拟等领域大放异彩;其二,*数据驱动的技术革新*持续突破极限,单细胞大规模预训练模型scFoundation、结构变异检测算法SVision-pro等工具为复杂生物问题的解析提供了新范式;其三,*临床与基础研究的双向赋能****日益紧密,从肿瘤演化机制的颠覆性发现到肠道真菌疗法的转化潜力,科学探索与健康需求正形成良性循环。
站在新的起点,中国生物信息学已展现出从“跟跑”到“领跑”的转型姿态。随着国家基因组科学数据中心GenBase等平台的国际化推进,以及AI、量子计算等前沿技术的深度渗透,未来的研究将更加聚焦于生命复杂系统的全景解析和精准干预。正如评选委员会所言,这些成果不仅是里程碑,更是迈向未知的阶梯。期待中国科研团队继续以开放协作的精神、攻坚克难的勇气,在解码生命奥秘的征途上书写更多“中国答案”。
参考文献
1、Chen X, Huang Y, Huang L, Huang Z, Hao ZZ, Xu L, Xu N, Li Z, Mou Y, Ye M, You R, Zhang X, Liu S, Miao Z. A brain cell atlas integrating single-cell transcriptomes across human brain regions. Nat Med. 2024 Sep;30(9):2679-2691. doi: 10.1038/s41591-024-03150-z. Epub 2024 Aug 2. PMID: 39095595; PMCID: PMC11405287.
2、Yan Q, Li S, Yan Q, Huo X, Wang C, Wang X, Sun Y, Zhao W, Yu Z, Zhang Y, Guo R, Lv Q, He X, Yao C, Li Z, Chen F, Ji Q, Zhang A, Jin H, Wang G, Feng X, Feng L, Wu F, Ning J, Deng S, An Y, Guo DA, Martin FM, Ma X. A genomic compendium of cultivated human gut fungi characterizes the gut mycobiome and its relevance to common diseases. Cell. 2024 Jun 6;187(12):2969-2989.e24. doi: 10.1016/j.cell.2024.04.043. Epub 2024 May 21. PMID: 38776919.
3、Wang T, He X, Li M, Li Y, Bi R, Wang Y, Cheng C, Shen X, Meng J, Zhang H, Liu H, Wang Z, Li S, Shao B, Liu TY. Ab initio characterization of protein molecular dynamics with AI2BMD. Nature. 2024 Nov;635(8040):1019-1027. doi: 10.1038/s41586-024-08127-z. Epub 2024 Nov 6. Erratum in: Nature. 2025 Jan;637(8047):E25. doi: 10.1038/s41586-024-08556-w. PMID: 39506110; PMCID: PMC11602711.
4、Huang W, Xiong T, Zhao Y, Heng J, Han G, Wang P, Zhao Z, Shi M, Li J, Wang J, Wu Y, Liu F, Xi JJ, Wang Y, Zhang QC. Computational prediction and experimental validation identify functionally conserved lncRNAs from zebrafish to human. Nat Genet. 2024 Jan;56(1):124-135. doi: 10.1038/s41588-023-01620-7. Epub 2024 Jan 9. PMID: 38195860; PMCID: PMC10786727.
5、Wang S, Lin J, Jia P, Xu T, Li X, Liu Y, Xu D, Bush SJ, Meng D, Ye K. De novo and somatic structural variant discovery with SVision-pro. Nat Biotechnol. 2025 Feb;43(2):181-185. doi: 10.1038/s41587-024-02190-7. Epub 2024 Mar 22. PMID: 38519720; PMCID: PMC11825360.
6、Bu C, Zheng X, Zhao X, Xu T, Bai X, Jia Y, Chen M, Hao L, Xiao J, Zhang Z, Zhao W, Tang B, Bao Y. GenBase: A Nucleotide Sequence Database. Genomics Proteomics Bioinformatics. 2024 Sep 13;22(3):qzae047. doi: 10.1093/gpbjnl/qzae047. PMID: 38913867; PMCID: PMC11434157.
7、Hao M, Gong J, Zeng X, Liu C, Guo Y, Cheng X, Wang T, Ma J, Zhang X, Song L. Large-scale foundation model on single-cell transcriptomics. Nat Methods. 2024 Aug;21(8):1481-1491. doi: 10.1038/s41592-024-02305-7. Epub 2024 Jun 6. PMID: 38844628.
8、Yang Y, Chen X, Pan J, Ning H, Zhang Y, Bo Y, Ren X, Li J, Qin S, Wang D, Chen MM, Zhang Z. Pan-cancer single-cell dissection reveals phenotypically distinct B cell subtypes. Cell. 2024 Aug 22;187(17):4790-4811.e22. doi: 10.1016/j.cell.2024.06.038. Epub 2024 Jul 23. PMID: 39047727.
9、Lu Z, Mo S, Xie D, Zhai X, Deng S, Zhou K, Wang K, Kang X, Zhang H, Tong J, Hou L, Hu H, Li X, Zhou D, Lee LTO, Liu L, Zhu Y, Yu J, Lan P, Wang J, He Z, He X, Hu Z. Polyclonal-to-monoclonal transition in colorectal precancerous evolution. Nature. 2024 Dec;636(8041):233-240. doi:
10.1038/s41586-024-08133-1. Epub 2024 Oct 30. PMID: 39478225.
10、Hou X, He Y, Fang P, Mei SQ, Xu Z, Wu WC, Tian JH, Zhang S, Zeng ZY, Gou QY, Xin GY, Le SJ, Xia YY, Zhou YL, Hui FM, Pan YF, Eden JS, Yang ZH, Han C, Shu YL, Guo D, Li J, Holmes EC, Li ZR, Shi M. Using artificial intelligence to document the hidden RNA virosphere. Cell. 2024 Nov 27;187(24):6929-6942.e16. doi: 10.1016/j.cell.2024.09.027. Epub 2024 Oct 9. PMID: 39389057.