目录
Nat.Biotechnol 2023 | 利用MaxFuse整合空间和单细胞数据跨模态弱链接的特征
Nat.Commun 2024 | "单细胞蝴蝶":基于双对齐变分自编码器的通用单细胞跨模态翻译方法
Nat. Biotech.|LINGER从单细胞多组学数据推断基因调控网络
生信乐园 #scRNA-seq数据分析 #scATAC-seq数据分析
2024年8月,国际顶尖著名杂志 Nature Methods 发表特刊(Special issue),探讨人工智能如何在生物学中广泛使用并为生物学家带来巨大帮助。特刊通过评论文章(Comment)、观点综述文章(Perspective)、原创研究文章(Research Article)等,讨论了计算生物学领域的各方面话题。
文章标题:Focus on advanced AI in biology
期刊名称:Nature Methods
特刊链接:https://www.nature.com/collections/ahhdhbhgha
以下对第一篇社论(Editorial)文章的编译。
文章标题:Embedding AI in biology
文章来源:Nature Methods
文章链接:https://www.nature.com/articles/s41592-024-02391-7
AI应用在基因组学(如单细胞、空间转录组学)的经典例子
高级机器学习方法对数据的需求很大。随着高通量组学技术(特别是在单细胞水平)的快速发展,具有多模态的超大数据集(一般涵盖数百万细胞)为模型训练提供了理想的数据来源。在一篇观点文章中,Fabian Theis和他的同事们提供了一个全面的概述,介绍了Transformer(一种强大的深度学习架构)及其在单细胞分析中的应用。通过制定预训练策略并利用Transformer架构,擅长多种下游任务的大模型在许多领域越来越受欢迎[2]。
Transformer在单细胞组学的应用
https://www.nature.com/articles/s41592-024-02353-z
遵循类似的方式,来自多伦多大学的Bo Wang团队,以及Jianzhu Ma、Xuegong Zhang和Le Song团队,分别介绍了两个单细胞基础模型(scGPT[3]和scFoundation[4]),并展示了它们在细胞类型注释、扰动预测和其他任务中的能力。在另一篇研究论文中,Wenpin Hou和Zhicheng Ji指出,GPT-4在使用单细胞RNA测序数据注释细胞类型方面可以实现最先进的性能[5]。Mohammad Lotfollahi的新闻稿[6]系统总结了并比较了这些工作,并讨论了这个领域的未来方向。
scFoundation 单细胞转录组预训练大模型
https://www.nature.com/articles/s41592-024-02305-7
同样在这期专刊中,Jure Leskovec和他的团队整合了来自不同物种的单细胞RNA测序数据集,通过使用大型蛋白质语言模型,从而学习到蛋白质低维表示,这朝着构建通用细胞低维表示迈出了一步[7]。此外,Lior Pachter和他的同事们提出了一个基于变分自编码器的框架,用于模拟转录和剪接动力学过程[8]。
SATURN 结合蛋白质序列和基因表达信息来获得单个细胞的通用表示
https://www.nature.com/articles/s41592-024-02191-z
机器学习方法在基因组学中产生影响的另一个领域是将序列映射到表型,Alexander Sasse、Maria Chikina和Sara Mostafavi在评论文章中讨论了这一点[9]。通过利用从许多不同的细胞类型和条件下收集的多模态数据,这些从序列映射到功能的模型旨在揭示不同遗传和环境因素影响下各种分子层面相互作用和调控的机制。
【SIMBA系列教程】回顾:
系列教程:SIMBA(1)-单细胞多特征统一embedding-算法介绍
系列教程:SIMBA(2)-单细胞多特征统一embedding-scRNA-seq分析
系列教程:SIMBA(3)-单细胞多特征统一embedding-scATAC-seq分析
系列教程:SIMBA(4)-单细胞多特征统一embedding-双组学分析
SIMBA(5)-单细胞多特征统一embedding-基因调控网络推断
系列教程:SIMBA(6)-单细胞多特征统一embedding-批次效应校正
KDD2024 | HiGPT: 当大模型遇上图神经网络
论文链接:https://arxiv.org/abs/2402.16024
代码链接:https://github.com/HKUDS/HiGPT
项目网站:https://higpt-hku.github.io/
在多个领域,如推荐系统、知识图谱构建、社交网络分析和生物信息网络,异构图谱因其能够表示多样化实体和复杂关系而备受瞩目。这些图谱通过其丰富的节点类型和错综的边连接,揭示了复杂系统的深层次特性。学习这些异构图谱的核心在于提取节点和边的深层特征,以揭示其内部的复杂语义联系,进而洞察其结构的多样性。异构图神经网络(HGNNs)因其在处理异构图谱中的复杂信息传播方面的能力而日益受到重视。HGNNs利用先进的信息传播机制,能够高效地模拟图中的复杂关系和多样实体,以及它们之间的语义差异。通过在不同类型节点和边之间聚合和传播信息,HGNNs加深了我们对异构图谱内部复杂联系的理解。
尽管现有的异构图学习框架已显示出一定的潜力,但它们在跨数据集泛化方面仍有局限。这些框架通常遵循“预训练-微调”的模式:先在特定数据集上进行预训练,然后针对同一数据集进行微调。这种方法在迁移到全新的、未见过的数据集时遇到了困难。这种困难源于框架对原始训练数据集中的节点和关系类型的过度依赖。当面对具有完全不同节点和关系类型分布的异构图数据时,模型的性能会受到严重影响。这种对特定数据的强烈依赖限制了模型在处理多样化异构图数据时的通用性和鲁棒性。
为了克服这些限制,该研究提出了一个关键问题,旨在拓宽异构图模型的应用范围:“能否开发出一种具有高度适应性的通用异构图模型,即使在节点类型和关系类型分布发生变化的情况下,也能有效地处理各种下游学习任务?”换句话说,该研究追求的是一个能够处理“任何关系类型”的单一模型。为了应对这一挑战,本文将介绍由香港大学数据智能实验室黄超教授团队最新开发的图结构大语言模型(HiGPT),它专门设计来解决泛化各种下游异构图学习任务的关键问题。
Nat.Biotechnol 2023 | 利用MaxFuse整合空间和单细胞数据跨模态弱链接的特征
论文地址:https://www.nature.com/articles/s41587-023-01935-0
今天给大家分享的是耶鲁大学统计与数据科学系Zongming Ma老师,宾夕法尼亚大学沃顿商学院Nancy R. Zhang老师和斯坦福大学微生物与免疫学系Garry P. Nolan老师联合发表在 Nature Biotechnology 上的一篇论文“Integration of spatial and single-cell data across modalities with weakly linked features”。作者开发了一个跨模态数据整合方法MaxFuse,通过迭代共嵌入、数据平滑和细胞匹配,即使不同特征之间关联较弱,也能利用每个模态中的所有信息获得高质量的整合。基准数据集上的关键评估指标表明,MaxFuse实现了显著的性能提升,且能够在同一组织切片上以单细胞分辨率对蛋白质组学、转录组学和表观基因组学信息进行空间整合。
Nat.Commun 2024 | "单细胞蝴蝶":基于双对齐变分自编码器的通用单细胞跨模态翻译方法
今天给大家分享的是南开大学数学科学学院陈盛泉课题组发表在 Nature Communications 上的一篇论文“scButterfly: a versatile single-cell cross-modality translation method via dual-aligned variational autoencoders”。作者开发了一个基于双对齐变分自编码器和数据增强方案的多功能单细胞跨模态翻译方法scButterfly,大量实验表明scButterfly在单模态数据的整合多组学分析、低质量单细胞多组学的数据增强以及scATAC-seq数据的自动细胞类型注释方面具有广泛应用价值。此外,scButterfly还可以推广到非配对数据训练、扰动响应分析和连续翻译等领域。
Nat. Biotech.|LINGER从单细胞多组学数据推断基因调控网络
[1] Yuan, Q., Duren, Z. Inferring gene regulatory networks from single-cell multiome data using atlas-scale external data. Nat Biotechnol (2024). https://doi.org/10.1038/s41587-024-02182-7
基因由调控元件与转录因子调控,在特定的细胞类型中表达或沉默,这一模型可由基因调控网络(GRN)建模,构建基因调控网络对解释遗传与环境对表型的影响至关重要。来自Clemson University 的都仁扎那(通讯)苑秋月(一作)提出了一种从单细胞多组学数据推断基因调控网络的方法LINGER,使用不同细胞环境下atlas规模的bulk数据及TF Motif数据整合预训练,从单细胞多组学数据(表达+染色质开放)推断调控网络,相较现有方法取得很高的精度。相关论文Inferring gene regulatory networks from single-cell multiome data using atlas-scale external data[1]于2024年4月发表于Nature Biotechnology。系列教程:SIMBA(6)-单细胞多特征统一embedding-批次效应校正
生信乐园 #scRNA-seq数据分析 #scATAC-seq数据分析
系列教程
批次效应和缺失值下单细胞多组学整合scMaui
✳️ Single-cell Multiomics Autoencoder Integration (scMaui)
为了消除对特定模态的偏倚并克服数据稀疏性,需要精细的单细胞多组学整合模型。同时必须考虑掩盖生物学信号的批次效应。引入了新模型——基于变分专家乘积自编码器与对抗学习的单细胞多组学自编码器整合scMaui。scMaui利用专家乘积计算多种边际分布的联合表示,对模态中缺失值尤为有效。还克服了以往基于VAE的整合方法在批次效应校正和适用检测手段受限方面的局限性。scMaui独立处理多种批次效应,接受离散和连续值,并提供多种重建损失函数以涵盖所有可能的检测方法和预处理流程。相比于其他方法,scMaui在多项任务中表现更优。下游分析也展示出其在识别不同检测方法间关系和发现隐藏亚群方面的潜力。
GitHub
code (https://github.com/BIMSBbioinfo/scmaui).
tutorials (https://github.com/BIMSBbioinfo/scmaui-experiments)