Nature Methods 2024 | 单细胞蛋白质组学数据的多功能深度图对比学习框架

今天为大家分享张瀚/姚建华团队在2024年于Nature Methods上发表的一篇文章。本文开发了一个通用的框架,含基于多任务异方差回归模型的肽不确定性估计和基于图对比学习的细胞嵌入生成,可用于细胞聚类、批次校正、细胞类型注释、临床分析和空间分辨蛋白质组数据的探索。

1. 摘要

单细胞蛋白质组学测序技术揭示了蛋白质-蛋白质相互作用、翻译后修饰和细胞中的蛋白质形态动力学。然而,肽段定量的不确定性估计、数据缺失、批次效应和高噪声等问题阻碍了单细胞蛋白质组数据的分析。解决这些复杂的问题是很重要的,但是现有的针对单细胞转录组的方法不能完全解决这些问题。本文提出了一个通用的框架,设计用于单细胞蛋白质组学数据分析称为scPROTEIN,它包括基于多任务异方差回归模型的肽不确定性估计和基于图对比学习的细胞嵌入生成。scPROTEIN可以估计肽定量的不确定性,对蛋白质数据进行降噪,消除批次效应,并在统一的框架中编码单细胞蛋白质组学特异性嵌入。证明了scPROTEIN对于细胞聚类、批次校正、细胞类型注释、临床分析和空间分辨蛋白质组数据探索是有效的。

2. 方法

2.1 多肽不确定性估计的多任务异方差回归模型

估计肽水平信号的不确定性,以获得更多信息丰富的蛋白水平数据。首先开发了一个不确定性感知框架,通过多任务异方差回归模型提供多肽不确定性估计措施。对于每一个检测到的肽序列,独热编码输入网络。网络含3个相同卷积块和2个完全连接层,随后得到预测丰度μ和估计不确定性σ。估计出肽的不确定性后,以不确定性指导的方式计算蛋白质丰度水平,得到蛋白质水平的丰度矩阵。丰度矩阵作为初始特征矩阵输入到scPROTEIN框架的第二阶段。

2.2构建细胞图

为了充分利用单细胞蛋白质组学数据,将丰度数据矩阵转换为无向无权细胞-细胞图G= (V,E,X)。为了获得细胞图拓扑结构,通过Pearson相关系数计算出一个细胞相似性矩阵S,设置阈值h构造细胞图,细胞图G的拓扑结构可以用一个对称邻接矩阵A表示:

利用空间位置信息,scPROTEIN可以构建基于空间接近度的细胞图。相似矩阵S是根据空间坐标计算出的欧氏距离计算得出,设置阈值h,但在Sij < h时使Aij = 1,获得空间信息丰富的细胞图拓扑。

2.3 用于细胞嵌入生成的图对比学习

阶段2通过一种深度图对比学习框架来学习全面的低维细胞嵌入。该框架接收细胞图G和特征矩阵作为输入。为了解决由于质谱采集技术的限制而导致的单细胞蛋白质组学数据中的噪声,设计了一种新的交替拓扑属性去噪模块,该模块可以产生更多信息和抗噪声的细胞嵌入。

总的来说,scPROTEIN含四个组成部分,(1)数据增强模块(2)基于GCN的图编码器,(3)节点级图对比学习模块,(4)拓扑属性交替去噪模块。

对比学习的目的是学习相似和不相似数据对之间的不变表示。为了生成相似的对,使用数据扩充来生成输入数据的不同视图。本文采用了两种类型的图增强技术:去除边和随机掩盖特征。

在得到增强图视图G1和G2后,用GCN作为特征提取器来学习细胞节点的潜在模式。将得到的输出Z1和Z2输入到一个权值共享的投影头中,该投影头用于将两个视图的嵌入投影到一个共同的潜在特征空间中,在该空间中构造对比损失。投影头由一个两层多层感知器实现。通过计算投影潜空间中的对比损失,scPROTEIN可以获得更好的表示能力。最大化同一节点生成的两个视图表示之间的一致性,视图G1中的嵌入可视为锚点另一视角G2的嵌入作为正样本处理。其他细胞节点的嵌入作为负样本。最大化正对间的一致性,最小化负对间的一致性,有效保留每个细胞节点的生物可变性。

一个交替的拓扑属性去噪模块。为了缓解单细胞蛋白质组谱中的噪声问题,开发一种基于原型对比学习的属性去噪模块。通过K -means算法执行亚种群检测,该算法基于当前学习的嵌入,具有预定义的簇数K。在k-means算法收敛后,给每个节点分配它的聚类标签K。同标签样本的平均值为聚类中心Ck,取K个聚类中心作为原型表示。设计原型对比损失更新整个节点表示矩阵。

随后设计了一个链路预测器来交替地对拓扑结构进行降噪,从而提高学习到的嵌入的质量。迭代t的嵌入矩阵Z (t),基于成对PCC得到相应的相似矩阵Sij (t)。选择Sij (t)中概率最高的M条边作为Edge_add(t)集,选择概率得分最低的M条边作为Edge_remove(t)集。则邻接矩阵Aij (t)

更新后的邻接矩阵经过下一个训练迭代进行数据增强和属性去噪。然后,使用降噪后的节点表示来更新拓扑结构。

2.4 细胞嵌入生成

模型收敛后,可以得到训练好的GCN编码器和精确的细胞图。如图所示,在阶段2的精细化图拓扑上,使用信息训练的GCN编码器生成学习到的细胞嵌入Z。所获得的嵌入在很大程度上缓解了这组纠结的问题,包括数据丢失、批处理效果和数据噪声。因此,它们可用于各种应用,如细胞聚类,批量校正,标签转移,临床分析和空间分析。

3. 结果

3.1 细胞聚类和肽的不确定性评估概述

定性和定量地比较了scPROTEIN与其他方法的细胞聚类性能,并给出了所学到的多肽不确定性。还比较了scPROTEIN的1阶段与其他肽聚集方法。将scPROTEIN的性能与其他五种常用的scRNA-seq数据(MAGIC和AutoClass用于数据清洗,Harmony, Scanorama和Liger用于批量校正)的性能进行了比较,得到全面的评价。

估计的肽水平不确定性反映了不同样本的数据噪声,在相同的蛋白质中,不同多肽的不确定度测量因其不同的电离、共分离、碎片化和样品制备损失行为而不同。例如,‘AYSSFGGGR_2 ’和‘ DDFNSGFR_2 ’是构成相同蛋白‘ Q15056’(红色框中)的两个肽,但它们在不同批次和样品中表现出非常不同的不确定度模式。

3.2 支持数据集成和标签传递

在五个独立的实验中比较了scPROTEIN对批效应的鲁棒性,结果如图。

使用scPROTEIN整合两个小鼠细胞数据集:N2和nanoPOTS。将重复蛋白(762个蛋白)作为原始蛋白谱,构建共享细胞图谱。进一步进行标签转移实验,注释N2和nanoPOTS数据集上的细胞类型,效果良好。

3.3 在临床数据集的应用

从临床组织中获得的基于抗体的单细胞蛋白质组学数据的应用,在ECCITE-seq数据上,集成健康供体和患者的数据,进行细胞聚类,合并相似的簇,得用scPROTEIN学习到的嵌入。选择了三个具有代表性的聚类进行分析,发现癌细胞的生物标志物。

利用scPROTEIN学习到的嵌入来分析肿瘤微环境。高shd值代表高度区隔化的表型,组织倾向于块状。低shd值表示高水平的空间混合。借助空间定位和蛋白质谱分析,scPROTEIN可以学习更好地反映空间异质性的细胞表征,从而能够区分区隔化的肿瘤样本和非肿瘤样本。

如何学习大模型 AI ?

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

第一阶段(10天):初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。

  • 大模型 AI 能干什么?
  • 大模型是怎样获得「智能」的?
  • 用好 AI 的核心心法
  • 大模型应用业务架构
  • 大模型应用技术架构
  • 代码示例:向 GPT-3.5 灌入新知识
  • 提示工程的意义和核心思想
  • Prompt 典型构成
  • 指令调优方法论
  • 思维链和思维树
  • Prompt 攻击和防范

第二阶段(30天):高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。

  • 为什么要做 RAG
  • 搭建一个简单的 ChatPDF
  • 检索的基础概念
  • 什么是向量表示(Embeddings)
  • 向量数据库与向量检索
  • 基于向量检索的 RAG
  • 搭建 RAG 系统的扩展知识
  • 混合检索与 RAG-Fusion 简介
  • 向量模型本地部署

第三阶段(30天):模型训练

恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。

到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?

  • 为什么要做 RAG
  • 什么是模型
  • 什么是模型训练
  • 求解器 & 损失函数简介
  • 小实验2:手写一个简单的神经网络并训练它
  • 什么是训练/预训练/微调/轻量化微调
  • Transformer结构简介
  • 轻量化微调
  • 实验数据集的构建

第四阶段(20天):商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。

  • 硬件选型
  • 带你了解全球大模型
  • 使用国产大模型服务
  • 搭建 OpenAI 代理
  • 热身:基于阿里云 PAI 部署 Stable Diffusion
  • 在本地计算机运行大模型
  • 大模型的私有化部署
  • 基于 vLLM 部署大模型
  • 案例:如何优雅地在阿里云私有部署开源大模型
  • 部署一套开源 LLM 项目
  • 内容安全
  • 互联网信息服务算法备案

学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。

如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值