生信之灵-CSDN博客

原创不依赖共享细胞，也能精准对齐多组学数据：GAMMI用图学习破解“马赛克”数据整合的70年难题

GAMMI的核心思想非常直观：既然我不能直接知道哪两个细胞是对应的，那我可以先搞清楚细胞和它的“工具”（分子特征）之间的关系。它们往往是“马赛克”式的（Mosaic）：一批细胞只有RNA数据，另一批细胞只有ATAC数据，还有一批细胞既有RNA又有空间坐标，但这三批细胞来自三个完全不同的病人，没有任何重叠的细胞。为了验证GAMMI的鲁棒性，研究团队设计了一个包含5个单细胞数据集、11项评测指标的全面基准测试，从完全配对的PBMC数据集，到只有微弱锚点的MOP，再到完全非配对的Muto和Triple。

2026-05-13 18:30:00 331

原创 ARI提升120%、超越11种方法：这个统一框架如何用超球面原型聚类重塑空间转录组分析？

标题：Separable Spatial Single-cell Transcriptome Representation Learning via Graph Transformer and Hyperspherical Prototype Clustering。

2026-05-12 15:41:55 339

原创全面超越传统频率方法：scLASER 如何用“细胞邻里”破解纵向单细胞动态难题

研究者明确指出，这个框架可以推广到空间转录组学。想象一下，你在组织的不同空间位置构建“邻域”，看这些空间邻域随时间如何演化——这将打开一个全新的观察维度。

2026-05-11 19:00:00 262

原创 26.9倍信噪比提升，一个显微镜撬开溶酶体代谢的黑箱

SPEND的巧妙之处在于：它把一张噪声较大的光谱图片，按照光谱维度（波数）拆分成奇数和偶数两组数据，让神经网络在这两组“彼此独立又有内在关联”的数据之间学习映射关系，从而实现去噪，而不需要任何“干净”图片作为“标准答案”。工作原理是这样的：先用一束中红外激光照射样品，让目标分子（比如脂肪分子）吸收红外光产生振动，振动产生的热量会扩散到周围的荧光染料上，导致染料的荧光强度瞬间变弱。图注：c图和d图展示了在同一细胞内，有的溶酶体偏重蛋白分解（红色），有的偏重脂质分解（蓝色），还有的是两者兼顾（紫色）。

2026-05-09 14:30:00 307

原创全面超越11种方法，破解12种癌症之谜：这个框架如何用一张病理切片“读出”DNA密码？

这保证了模型既学会了跨模态的“翻译”能力（如看图识基因），也保留了各自模态内在的丰富信息，从而实现了从图像到分子（Image-to-gene）、从分子到图像（Gene-to-image）的“双向检索”。它开启了一个“网络医学”的新视角——通过量化和揭示从“宏观表型”（组织形态）到“微观分子”（基因网络）的映射关系，为理解疾病的发生、发展和转移提供了前所未有的工具。李梢团队面临的核心挑战，就是如何构建一个既能“博学”（处理多种分子数据）、又能“善解人意”（可解释），还能“走遍天下”（高泛化性）的统一框架。

2026-05-08 18:45:00 315

原创 41块肿瘤切片、27位患者、三大主流基因面板——这份迄今最全面的Xenium空间转录组学基准测试，揭开了数据中一个隐秘的真相：你看到的“细胞信号”，可能有一半来自邻居的“RNA泄漏”。

总的来说，这项研究不仅提供了空间转录组学领域最详实的基准测试，更给出了一个切实可行的工具。它提醒我们，在赞叹技术进步带来的海量数据时，必须警惕那些隐形的“信号窃贼”。SPLIT的出现，为我们开启了一扇通往更纯净、更真实的分子世界的大门。不过，一个深层的问题也随之浮现：当我们校正了RNA的物理溢出，排除了技术噪音，我们是否也可能在某些场景下，不自觉地“校正”掉了细胞之间真实的、微弱的通讯信号？比如T细胞通过胞外囊泡接收的少量肿瘤抗原信息？

2026-05-07 20:00:00 337

原创追踪17只果蝇、7只线虫、10只小鼠，全程无需人工标注：这个无监督跟踪器如何颠覆动物行为研究？

标题：Unsupervised transfer learning enables multi-animal tracking without training annotation追踪17只果蝇、7只线虫、10只小鼠，全程无需人工标注：这个无监督跟踪器如何颠覆动物行为研究？

2026-05-06 19:30:00 358

原创预测单突变如何重写蛋白质“社交网络“：eSIG-Net比你想象的更聪明

eSIG-Net的出现，标志着计算生物学从"预测结构"到"理解变化"的一个关键转折。即使不依赖昂贵的结构数据，仅用序列信息和精心设计的差异学习策略，也能解码单突变对蛋白质社交网络的重写规则。但这也引出一个更深层的问题：当AI已经能如此精准地预测分子层面的变化后，我们是否准备好理解这些变化在人体内——那个由数万个蛋白质、无数种细胞类型、复杂的组织微环境构成的真实系统里——究竟意味着什么？也许比预测突变更难的事，是理解突变在整个人体交响乐中的回响。你觉得呢？

2026-05-05 15:30:00 399

原创 700倍参数碾压巨头：这个RNA基础模型用进化“对比学习”重新定义了“少即是多”

标题：Orthrus: toward evolutionary and functional RNA foundation models700倍参数碾压巨头：这个RNA基础模型用进化“对比学习”重新定义了“少即是多”现有基因组基础模型，像GPT或BERT一样，通过预测被遮罩的核苷酸或“下一个碱基”来学习DNA语言，却忽略了生物学中最重要的信号——进化。

2026-05-02 18:30:00 342

原创告别“黑箱”：概率流匹配如何让单细胞数据“开口说话”细胞命运？

标题：Learning biophysical models of gene regulation with probability flow matching。

2026-05-01 17:45:00 300

原创预见基因表达，DNA序列只讲了一半的故事：给AI模型一扇观测染色质“开关”的窗户

标题：btag199预见基因表达，DNA序列只讲了一半的故事：给AI模型一扇观测染色质“开关”的窗户大多数预测基因表达的AI模型只看DNA序列，忽略了染色质是否“打开”这个关键开关。一项新研究证明，直接把染色质可及性数据作为输入特征喂给模型，预测精度显著飙升，尤其在那些最难搞定的“高度可变基因”上。更妙的是，这个“加个通道”的策略极其简单，几乎可以移植到任何现有模型上。

2026-04-29 17:00:00 356

原创百万细胞级空间组学分析，从几分钟缩短到几秒：SpatialQuery让“细胞社会“研究首次变得可交互

从单细胞测序到空间组学，生命科学研究正经历着从"拆解零件"到"理解社会"的范式转变。SpatialQuery的真正意义，或许不只是提供了一个速度更快、功能更全的工具，而是在于它展示了当一个方法论问题被定义得足够精确时，自然语言界面、交互式可视化、端到端分析流水线——这些看似属于"工程优化"而非"科学探索"的东西——如何能真正加速生物学发现。当一种方法能同时挖掘发育生物学的"潜伏信号"、肾脏纤维化的"前病变微环境"、肿瘤免疫的"治疗抵抗生态位"时，这项技术的价值就不需要更多论证了。

2026-04-28 16:00:00 350

原创把2万个基因压成10个数字，这个AI让大模型真正“读懂”了细胞

标题：RVQ-Alpha: Bridging Single-Cell Transcriptomics and Large Language Models via Discrete Tokenization and Verifiable Reinforcement Learning。

2026-04-27 17:00:00 304

原创反应-扩散模型重塑空间通信推断：SpaFlow超越11种主流方法揭示细胞对话新维度

标题：SpaFlow depicts the dynamics of ligand-receptor interaction in spatial transcriptomics data。

2026-04-25 18:00:00 372

原创全面超越9种主流方法：这个生成框架用解耦表征重塑单细胞多组学整合

标题：scMRDR: A scalable and flexible framework for unpaired single-cell multi-omics data integration全面超越9种主流方法：这个生成框架用解耦表征重塑单细胞多组学整合。

2026-04-24 16:00:00 400

原创全面超越四种方法：SpaNiche如何用“空间生态位”破解组织微环境的细胞对话密码

更令人惊叹的是，它还发现了其他方法遗漏的细节——比如B_activated细胞实际上有两种不同的共定位模式（与B_naive细胞和与B_plasma细胞），而Pearson相关性方法只能检测到其中一种。更重要的是，它打通了从空间数据到批量转录组数据的桥梁，让研究者可以利用海量已发表的TCGA数据来验证空间发现与临床预后的关联。这里的“图正则化”是个精巧的设计——它确保空间上邻近的spot在分析中被赋予相似的权重，相当于给模型增加了一条常识：距离越近的细胞，它们的微环境特征应该越相似。

2026-04-23 18:30:00 353

原创拓扑与曲率双剑合璧：scGeom如何从单细胞数据中“看见”细胞命运

当然，这项开创性工作也有其局限性。目前，拓扑特征更多是作为整体的“指纹”或“摘要”来使用，尚难以将某个特定的“环”或“空洞”精确地回溯到具体哪些基因或细胞子集上（即特征的可解释性有待加强）。例如，在大脑数据中，神经元的基因网络表现出显著更长的H1持久条码（更多显著的环），这与神经元功能的高度复杂性和网络连接的广泛性在直觉上是相符的。（如干细胞），其基因网络往往处于一种“全局准备”状态，许多通路都保持低水平的活跃和连接，网络整体连通性好，可能形成一些大的“环路”（高维空洞），这代表了功能的多样性和可塑性。

2026-04-22 18:30:00 684

原创超越固定基因词汇表：HEIST如何用分层图模型统一解读空间多组学

当遇到新数据集（尤其是测量蛋白质的CODEX、MIBI技术）时，如果目标分子不在预训练的“词汇表”里，模型就束手无策，要么直接报错，要么需要费力地手动将蛋白质“映射”到近似的基因上，这无疑会丢失大量信息并引入偏差。它通过创新的跨层信息传递，将细胞的空间邻域信息与内部的基因共表达网络动态耦合，不仅实现了跨技术、跨器官的卓越预测性能，还能发现被传统模型忽略的、由微环境驱动的细胞亚群。这意味着，同一个基因在肿瘤边缘的细胞和核心的细胞中，可能具有不同的表示，因为它所处的“社区压力”不同。

2026-04-21 18:00:00 339

原创多组学与AI时代：生物信息学从业者的未来进化之路

多组学与AI时代：生物信息学从业者的未来进化之路大家好，这里是生信之灵，今天我们来聊聊生物信息学中尤其是多组学的未来发展，以及在这个AI飞速发展的当下，我们作为生信研究者，应该如何适应AI时代？根据ARK的年度报告(ARK Big Ideas 2026)，多组学或者说基因组学，将是人工智能领域最深刻的应用方向，也是对人类影响最为深远的领域之一。目前，基因测序的成本在大幅下降，测序速度也在显著提高。根据ARK的报告，第一个人类基因组测序耗时约13年，成本接近30亿美元；

2026-04-20 17:11:29 331

原创精准预测药物疗效：DeepDTF如何用“双分支Transformer”破解癌症异质性难题

该模型不仅将预测精度提升至新高度（在关键测试中AUC达0.987），更关键的是，它通过一种创新的“双分支Transformer”融合机制，首次在模型中系统性地解决了多组学数据与药物化学结构之间的“语义错位”问题，并提供了可解释的生物学依据。过去的方法，比如直接将基因特征向量和药物指纹向量简单拼接，就像把一本小说的段落和一把钥匙的3D扫描图强行塞进同一个文档，然后让模型去“理解”它们之间的关系。其“分而治之，再动态融合”的思想，可广泛应用于需要整合基因组、影像、临床文本等多源数据的任务。

2026-04-19 15:30:00 169

原创跨模态知识蒸馏：仅凭H&E染色图像，就能“读”出空间转录组定义的细胞生态位

从图3（健康结肠）和图4（宫颈癌）的对比可以直观看到，学生模型（Ours）几乎完美地复现了老师模型揭示的精细空间结构：如结肠中的B细胞滤泡（紫色斑块）、上皮分区（绿色/蓝色分层）、宫颈癌中的侵袭性癌巢边界等。NOLAN的聪明之处在于，它不仅看单个细胞的基因表达，还看细胞的“邻里关系”——以每个细胞为中心，在一定物理半径内的所有邻居细胞共同构成一个“社区”。使用公开的细胞类型注释，计算学生模型预测的生态位与老师定义的生态位在细胞类型分布上的Jensen-Shannon散度（JSD，值越低越相似）。

2026-04-18 17:30:00 372

原创速度提升400倍，准确率全面领先：FAMSA2如何解决百万级蛋白序列对齐的“不可能任务”？

这就像是从需要调查数万亿对关系，变成了只需重点厘清代表之间的关系，再分批处理，效率有了质的飞跃。关键的是，通过算法优化（如固定最长序列作为代表之一），FAMSA2的代表点树在保持高速的同时，极大地减少了随机性带来的不稳定性，其准确度可与传统的穷举方法相媲美。在772个酶家族、1376个已知活性位点的测试中，通过计算活性位点残基在比对列中的分布熵（熵越低，说明越集中在对齐的列中），FAMSA2表现优异（熵值0.15），仅次于Muscle5（0.12），并将97%的活性位点残基保留在了最集中的列里。

2026-04-17 17:30:00 317

原创告别“数据饥饿”：annbatch如何让GPU在TB级生物数据上全速奔跑

最终，硬盘上的数据虽然整体是乱序的，但在物理存储上是连续的大块。在模拟50万个体规模的稀有变异（MAF < 0.01%）数据集上，annbatch的加载速度是MappedCollection的41倍，是scDataset的2.8倍。为了在保证高速的同时不牺牲随机性，加载器在将这一大块数据读入内存后，会在内存内部再进行一次快速的洗牌，然后才组成最终送给GPU的训练批次。annbatch的解决方案是，在训练开始前，对整个超出内存的数据集进行一次“预洗牌”，并将洗牌后的结果以一种新的顺序写入硬盘。

2026-04-15 17:00:00 358

原创基因表达预测的“权力游戏”：当转录组与表观基因组争夺控制权

scMultiPreDICT像一位冷静的裁判，在转录组与表观基因组这场关于基因表达控制权的“权力游戏”中，给出了基于数据的量化判罚：转录组掌握着普遍而强大的影响力，而表观基因组则在特定基因和特定细胞环境中行使着关键且不可替代的否决权或协同权。例如，当计划对一个基因进行扰动（如CRISPR敲低）时，研究者可以预先评估：针对该基因，是应该设计干预其上游转录因子（转录组层面），还是应该尝试改变其染色质开放状态（表观基因组层面），才能更有效地影响其表达？预测的目标基因也分为高变基因和非高变基因两类。

2026-04-14 18:30:00 372

原创从全局对齐到局部洞察：PLASMA如何用最优运输破解蛋白质功能位点匹配难题

当我们可以如此便捷地透视不同蛋白质之间那些隐秘的功能联系时，一个更深层次的问题也随之浮现：在蛋白质演化的漫长历史中，这种局部功能模块的“重复利用”和“重新组合”，究竟在多大程度上塑造了今天我们所看到的、复杂而精妙的生命系统？例如，在比对酵母的Vps27蛋白和小鼠的ASB2蛋白时，两者序列同源性仅21%，功能迥异（一个参与细胞内运输，一个是泛素连接酶组件），但PLASMA准确地识别出了它们用于蛋白质相互作用的共有螺旋结构基序，对齐区域的RMSD（衡量结构叠合程度的指标）低至0.18埃。，如TM-Align。

2026-04-13 17:30:00 672

原创从“DNA专家”到“通才助手”：GenomeQA如何重新定义大模型在基因组学中的能力边界

而像ChatGPT这样的通用大模型，在生物医学领域的角色更像是“知识渊博的翻译官”或“文献助理”，它们擅长基于已有的文本知识（如基因注释、文献摘要）进行问答，但几乎从未被要求直接“阅读”原始的ATCG序列。想象一下，未来的生物学家可以将一段新测得的、功能未知的DNA序列丢给AI助手，它能像经验丰富的专家一样，指出其中可能存在的调控元件、预测其可能影响的基因、甚至推断其在不同细胞状态下的功能。模型却无法识别这些“噪声”，依然对其中的随机模式进行煞有介事的“分析”，并错误地将其判断为真实的剪切位点。

2026-04-11 18:00:00 390

原创从81.7万细胞中解码“语法”：人类发育多组学图谱首次揭示调控序列的硬规则与软约束

他们利用深度学习模型，首次系统性地揭示了转录因子结合位点之间相互作用的“语法规则”——包括严格的间距取向要求（硬规则）和灵活的排列方式（软约束），并发现了一批普遍存在的抑制性调控基序。从基础科学的角度，我们终于开始像理解语言一样理解调控序列的逻辑。：给它一段序列，它就能告诉你这段序列在特定细胞类型中，有多大可能被打开（可及），以及打开的具体模式（如转录因子结合留下的“足迹”）。它揭示了细胞如何利用有限数量的转录因子，通过排列组合和严格的语法规则，创造出极其多样的基因表达程序，从而构建出复杂的多细胞有机体。

2026-04-10 17:30:00 316

原创告别“炼丹”微调：GenoJEPA用语义对齐解锁“即插即用”的基因组特征

GenoJEPA的出现，标志着基因组AI领域的一个务实转向：从一味追求模型规模和微调性能，到同时关注模型的可部署性、实用性和普惠价值。它告诉我们，有时换一种视角看问题——把DNA看作图像而非文本，并调整学习的目标——从重建细节到对齐语义，就能以小博大，释放出巨大的潜力。这项研究也引发了一个更深层的思考：我们长期以来套用NLP范式来理解基因组，是否在某种程度上限制了我们捕捉其本质生物学逻辑的想象力？

2026-04-09 17:30:00 351

原创 19.6%误差降低：scDFM如何用“分布流”破解单细胞扰动预测的噪声困局

这项工作的核心在于，它首次将“分布对齐”思维引入单细胞生成模型，不再只追求单个细胞的预测准确，而是确保模型生成的整个细胞群体在统计特性上与真实情况一致，从而大幅提升了模型的鲁棒性和泛化能力。当模型学会的不再是简单的输入-输出映射，而是整个概率分布的演化规律时，我们离在硅基世界中创建真正有预测力的生命模型，或许就更近了一步。一个随之而来的问题是：当这种分布级别的预测模型足够成熟时，我们应如何设计评估标准，才能不仅衡量其“预测得有多像”，更能评估其生成的“细胞群体多样性”在生物学功能上的合理性？

2026-04-08 17:30:00 326

原创单细胞测序的“暗物质”终见天日：TotalX如何捕获超50万细胞的全RNA图谱

在对人外周血单个核细胞的分析中，TotalX不仅清晰分出了所有主要免疫细胞类型，还发现了大量具有细胞类型特异性的非编码RNA。分析显示，在Cajal-Retzius细胞中，高表达的miR-137与其多个已验证的靶基因（如CDC42）的表达呈显著负相关，这与miRNA抑制靶基因翻译或降解其mRNA的经典模型一致。TotalX在cDNA扩增后，引入了基于CRISPR-Cas9的DASH技术，像精准的“分子剪刀”一样，将rRNA的cDNA片段切割清除，从而让测序数据更多地反映有生物学意义的转录本。

2026-04-07 17:30:00 368

原创从“弯曲”到“笔直”：GeoBridge如何用几何线性化破解细胞命运导航难题

从离散的快照到连续的史诗，从被动的观察到主动的导航，GeoBridge为我们打开了一扇新的大门。然而，这种对生命路径的“设计能力”也带来了新的问题：在多大程度上，我们基于计算出的“最优路径”进行的干预，能够真正尊重生命系统固有的复杂性与韧性？一项名为GeoBridge的新方法，通过将高维、非线性的单细胞转录组数据映射到一个平坦的线性空间，成功将复杂的细胞状态转换轨迹“拉直”。在这个流形上，细胞间的“生物距离”是非线性的——某些关键基因的微小变化可能意味着命运的巨变，而另一些基因的大幅波动可能无关紧要。

2026-04-06 16:41:58 421

原创从“细胞地图”到“细胞导航”：扰动引导的结直肠癌细胞状态因果解析

标题：Perturbation-guided mapping of colorectal cancer cell states to causal mechanisms期刊/会议：bioRxiv发表时间：March 24, 2026论文链接：https://doi.org/10.64898/2026.03.03.708171一个国际研究团队构建了迄今最全面的结直肠癌单细胞图谱，整合了超过300名患者、150万个细胞的数据。

2026-04-04 17:30:00 589

原创从静态快照到动态法则：Neural ODE与流匹配如何重塑单细胞生物学

【论文摘要】《自然-通讯生物学》最新综述探讨了NeuralODE与流匹配（FlowMatching）技术如何推动单细胞数据分析的范式革新。传统方法（如伪时间排序和RNA速度）局限于静态插值或短程预测，而NeuralODE通过神经网络直接参数化细胞动态法则，实现连续状态推演与扰动模拟。FlowMatching进一步优化训练效率，无需数值积分即可匹配细胞分布间的“最优传输”。应用显示，这类方法在轨迹推断、基因调控网络重建及虚拟实验预测中表现卓越，但也面临因果混淆、泛化性等挑战。研究标志着从描述关联向机制建模的

2026-03-12 08:15:00 378

空空如也

空空如也