- 博客(273)
- 资源 (1)
- 问答 (3)
- 收藏
- 关注
原创 患者-试验匹配算法的数学原理与工程实现
本文摘要:研究提出患者-临床试验匹配的形式化框架,将其定义为跨模态蕴含预测问题。患者电子健康记录(EHR)表示为纵向就诊序列,临床试验标准分为纳入和排除标准。核心挑战是学习标准级匹配函数。提出DeepEnroll模型,采用分层嵌入网络处理EHR数据,结合ClinicalBERT编码试验标准,通过可分解注意力实现高效对齐,并引入数值推理模块处理精确约束。模型在IQVIA数据集上训练,采用交叉熵损失。后续工作COMPOSE进一步提出查询依赖的患者表示方法,通过记忆网络实现动态编码,提升匹配灵活性。研究为临床试验
2026-01-28 16:14:51
5
原创 解密COSMO-RS:流体相热力学预测的核心模型与技术突破
摘要:COSMO-RS模型通过量子化学计算分子表面电荷分布,实现了从微观量子尺度到宏观化工过程的热力学预测。该模型基于介电连续介质理论,将分子表面片段化处理,通过σ-剖面描述电荷分布,并计算片段间的静电失配能和氢键能。其核心算法通过自洽化学势方程求解活度系数,克服了传统模型依赖实验参数的局限。随着技术进步,模型引入了高阶描述符和色散力修正,提升了预测精度。在药物研发、化工分离等领域广泛应用,但仍存在对长程有序结构预测不足等局限性。该模型为复杂体系的热力学性质预测提供了重要理论工具。
2026-01-04 14:22:36
775
原创 深度学习驱动的蛋白质设计新范式:解析RFdiffusion3与Foundry生态系统
蛋白质设计是计算生物学与生物工程领域的前沿方向,其目标是创造具有特定结构和功能的新型蛋白质分子,在药物研发、工业酶工程、基因治疗等领域具有革命性应用潜力。传统蛋白质设计方法依赖于分子动力学模拟和基于物理的能量函数优化,面临计算成本高昂、设计成功率低等挑战。近年来,以扩散模型为代表的深度学习技术为蛋白质设计带来了突破性进展,其中RFdiffusion3(RFD3)作为最新一代扩散模型,实现了全原子水平的生物分子相互作用从头设计。
2025-12-24 17:27:32
858
原创 LoRA 微调技术全解析:从数学原理到工程实践的深度指南
摘要:LoRA(低秩适应)是一种高效的参数微调技术,通过冻结预训练模型参数并引入低秩可训练矩阵,显著降低计算和存储成本。其核心原理是将权重更新分解为两个低维矩阵乘积,参数量从$d_{out}×d_{in}$降至$r(d_{in}+d_{out})$。关键参数包括秩$r$(控制表达能力)、缩放因子$\alpha$(调节更新强度)和Dropout(防止过拟合)。LoRA常应用于Transformer的注意力层和前馈网络层,并衍生出RSLoRA、DoRA等改进方法。工程实践中需平衡参数配置,在推理时可灵活组合不同
2025-12-22 11:48:37
504
原创 化学势:掌控物质世界的“隐形推手“
本文深入解析化学势这一热力学核心概念,揭示其作为物质迁移与化学变化驱动力的本质。化学势定义为吉布斯自由能对组分物质的偏导数,反映了粒子逃离某状态的趋势。文章详细推导了理想气体和溶液中化学势的数学表达式,阐明其受温度、压强和浓度的影响规律。通过水的三相点、合成氨反应、原电池电动势和细胞主动运输等实例,展示了化学势在相平衡、化学反应、电化学和生物学中的关键作用。最后指出化学势概念已拓展至材料科学等领域,成为连接微观粒子行为与宏观现象的桥梁。全文以严谨公式与生动案例相结合,系统阐述了化学势如何统一解释自然界万千变
2025-12-19 17:47:03
577
原创 【硬核】深入剖析COSMO-RS:从量子力学到热力学性质的“无参”预测之路
摘要:COSMO-RS模型通过将分子间相互作用转化为表面片段接触问题,实现了从量子化学计算到宏观相平衡的预测。其核心流程包括:1)DFT计算分子表面屏蔽电荷密度(σ-profile);2)基于统计热力学求解片段化学势。该模型通过静电失配能、氢键作用和范德华力构建能量泛函,并引入组合项修正熵效应。针对柔性分子,采用构象系综加权方法提高预测精度。相比传统基团贡献法,COSMO-RS具有参数依赖性低、可预测溶剂依赖性构象等优势,其变体COSMO-SAC则侧重计算效率。实践建议包括:固定基组选择、处理带电体系需修正
2025-12-19 14:59:11
61
原创 使用Reaxys数据库构建化学反应条件预测数据集
该数据处理过程遵循“来源筛选→质量清洗→格式标准化→拆分验证”的逻辑,核心是“去芜存菁”——既保留覆盖广泛有机反应的海量数据(1140万条),又通过严格筛选和标准化消除噪声与歧义,最终构建出适配“多目标条件预测(分类+回归)”的高质量数据集。这一过程是后续神经网络模型实现高预测精度(如Top-10条件匹配率69.6%)的关键前提。
2025-12-19 11:45:56
62
原创 DeerFlow 图文并茂功能的实现机制
DeerFlow图文处理技术解析:系统通过InfoQuest爬虫获取网页图像资源,严格规范图像引用来源,确保仅使用真实获取的图像。采用Markdown标准化格式处理图文内容,前端支持流式渲染,实现平滑加载。从信息获取、处理到展示形成完整链路,保证图文结合的真实性与可追溯性。
2025-12-18 16:53:00
284
原创 LLaMA-Factory 大模型微调实战:参数算法深解与场景化落地指南
摘要: 大模型微调是通过特定场景数据调整预训练模型参数,实现任务适配与通用能力的平衡。核心算法包括LoRA(低显存微调)、偏好对齐(DPO/ORPO/KTO)和量化训练(4bit/8bit压缩)。参数配置需针对显存优化、训练稳定性和效果提升动态调整,如长文本任务启用FlashAttention,复杂任务提高LoRA秩。典型场景适配案例显示,客服问答采用ORPO+LoRA可提升准确率,法律文档问答结合Dora降低显存占用,图文广告生成通过两阶段训练优化多模态效果。微调决策应基于场景痛点选择算法与参数组合,通过
2025-12-17 15:59:59
324
1
原创 正交试验法优化水性涂料配方:从极差分析到方差验证的全流程实践
正交试验的“极差分析+方差分析”是涂料研发的高效工具:极差分析快速锁定最优配方,方差分析定量验证影响显著性。本文案例完整覆盖了从试验设计到结果验证的全流程,可直接复用于各类配方优化场景。
2025-12-15 13:41:08
37
原创 探索AUTOCT:用大语言模型自动化临床实验预测的新框架
AUTO CT框架是一种创新的临床试验预测方法,结合大语言模型(LLMs)与经典机器学习,实现自动化特征生成与优化。该框架通过特征提议者、规划者、构建者等组件,利用蒙特卡洛树搜索(MCTS)算法迭代优化特征集,在TrialBench基准测试中表现出色(I-III期试验ROC-AUC达0.753/0.639/0.702)。其独特优势在于:1)完全自动化处理非结构化数据;2)保持机器学习模型的可解释性;3)在低数据环境下仍能高效工作。未来有望显著降低药物研发成本,加速医疗创新进程。
2025-11-27 23:56:06
92
原创 TxGemma:面向治疗学的高效通用大型语言模型技术报告
治疗学开发是一项成本高昂、风险极高且失败率居高不下的艰巨任务。为应对这一行业痛点,本报告详细介绍了 TxGemma—— 一套高效、通用的大型语言模型(LLM)套件,其核心能力涵盖治疗学特性预测、交互式推理及可解释性分析。与传统任务特定模型不同,TxGemma 能够整合多样化来源的信息,在治疗学开发全流程中具备广泛应用价值。该套件包含 20 亿、90 亿和 270 亿参数三种模型变体,基于 Gemma-2 在包含小分子、蛋白质、核酸、疾病和细胞系的综合数据集上进行微调优化。
2025-11-27 23:35:26
85
原创 数据驱动框架在有机合成反应条件预测中的应用
QUARC框架通过四阶段递进式建模实现有机合成条件的精准预测:1)试剂预测基于反应指纹和分子图特征生成试剂组合;2)温度预测结合试剂信息输出离散温度区间;3)反应物用量预测通过反应物指纹确定当量比;4)试剂用量预测适配不同计量需求。该框架采用分类任务设计、离散化标签和教师强制训练策略,实现±20°C温度精度和40%当量比匹配率,支持自动化合成和条件优化。其结构化输出可直接转换为实验方案,特别适用于复杂反应的AI辅助设计。
2025-11-13 01:46:30
43
原创 多模态化学信息重建系统CIRS-图像处理单元复现源码:从化学结构图像到图形化基元的转化
最终输出的“图形化基元的结构化信息”是一组机器可解析的数据对象,涵盖三个维度:第一,化学属性:包括原子的元素类型或取代基标签、电荷状态,以及键的类型与空间取向;第二,几何位置:以图像坐标系中的像素坐标精确记录原子中心与键端点;第三,连接关系:通过坐标匹配建立的原子–键–原子连接图,反映分子的骨架结构。这些信息共同构成了一种中间表示形式,既忠实于原始图像的视觉内容,又具备化学语义的可计算性。
2025-11-06 15:18:20
64
原创 一种独特机理驱动的化学反应分类器详解
代码位置第 47-300+ 行// atom_494: 硫原子,度数=2,化合价=2,无H,无电荷!// atom_35: 氧原子,度数=1,1个H,无电荷// atom_347: 氧原子,度数=2,无H,无电荷!→atom_494()[OD1h1+0]→atom_35()→atom_347()特性传统方法(MCS)NameRXN(机理驱动)匹配策略最大公共子结构原子类型模式 + 操作码时间复杂度O(n) - 线性扫描机理理解无内置化学机理原子映射需额外计算自动推导准确性结构相似。
2025-10-21 18:30:41
73
原创 MinerU2.5:高分辨率文档解析的解耦式视觉语言模型革命
本文介绍了MinerU2.5文档智能解析系统,这是一项由上海人工智能实验室、北大与交大团队联合开发的创新技术。该系统采用"解耦式视觉语言架构",通过两阶段解析范式(全局布局分析和局部内容识别)实现了效率与精度的平衡。核心创新包括NaViT原生分辨率视觉编码器、M-RoPE语言解码器和Patch Merger桥接层,显著提升了计算效率。在训练策略上采用三阶段闭环进化,特别设计了IMIC困难样本挖掘方法。系统在公式识别、表格解析等任务上引入创新解决方案,在OmniDocBench基准上超越多
2025-10-16 15:45:00
867
原创 KEGG通路数据全流程处理与基因相似性网络构建
文章摘要: 本文介绍了基于KEGG通路数据构建基因相似性网络的完整流程。首先通过KEGG REST接口获取人体通路编码(hsa编码),利用R语言的KEGGREST包批量提取每条通路的关联基因并保存为CSV文件(共352条通路)。随后使用Python对数据进行整合,构建基因-通路二进制矩阵,通过余弦相似度计算基因间相似性,最终生成基因相似性网络。整个过程提供可复现代码(R/Python)和关键操作细节,包括数据清洗、矩阵构建及异常处理,为生物信息学分析(如癌症驱动基因预测)提供基础网络数据支持。
2025-09-12 15:13:19
217
原创 自由能微扰:理论基础、计算方法与药物设计应用
自由能微扰(FEP)作为药物设计的精准计算工具,通过构建热力学循环和分子动力学模拟实现配体-靶标结合自由能的精确预测。传统FEP方法存在计算耗时、结构差异限制等问题,海南大学团队开发的GA-FEP、RED函数和CS-FEP等创新方法显著提升了计算效率,将预测时间从30-60天缩短至1天内,并突破结构差异限制。FEP已成功应用于新冠药物筛选、PDE10抑制剂优化等案例,预测误差可控制在1 kcal/mol内,达到化学精度。未来FEP将与AI、云计算等技术深度融合,为药物研发提供更高效、精准的计算支持。
2025-09-08 17:29:52
240
原创 X-Master 技术报告
X-Master 展示了一种无需大规模再训练,仅通过推理工作流设计 + 工具增强 + 多角色协作,即可在科学推理任务中取得领先成绩的方法。其开源实现让科研社区能够方便地复现、扩展和应用,为未来的 AI 科研助手提供了坚实的基石。
2025-09-04 17:46:54
900
原创 MinerU:大模型时代下的开源文档智能解析引擎深度技术报告
MinerU是上海人工智能实验室推出的开源文档解析工具,旨在解决复杂PDF文档的高精度结构化提取问题。针对传统OCR、特定库解析、多模块和端到端方法在处理复杂版面、多模态内容时的局限性,MinerU创新性地采用四阶段处理流程:文档预处理、内容解析、后处理和格式转换。其核心技术优势在于:1)精准保留文档结构与语义连贯性;2)多模态元素(文本、表格、公式、图像)的完整提取;3)符合人类阅读顺序的内容重组;4)对扫描模糊、水印等复杂场景的强鲁棒性。该系统集成了DocLayout-YOLO、PaddleOCR等先进
2025-09-04 17:37:51
1127
原创 重新理解图神经网络训练:数据、Batch、权重与大图
GNN 的权重是 “通用工具”,不是 “定制工具”—— 就像 CNN 用同一套卷积核识别所有图像的边缘,GNN 用同一套权重提取所有图的 “结构 - 特征关联规律”,而这一工具的有效性,源于置换不变性和归纳学习的数学保障。GNN 的训练逻辑看似复杂,核心其实是 “适配图结构的特殊性”,而严谨性则体现在对细节的把控:数据单位随任务定,训练范式随图规模定(全图 vs 子图采样);Batch 构造随图大小定(小图合并 + 图索引,大图采样 + 子图独立);权重共享源于置换不变性与归纳学习,与图大小无关;
2025-09-01 16:57:26
882
原创 贝叶斯优化提升化学合成反应效率(附源码)
本文介绍了贝叶斯优化在化学反应条件优化中的应用。通过BayBE库,结合高斯过程代理模型和预期改进采集函数,该算法能高效探索1728种参数组合的反应空间。文章以Shields反应为例,演示了从参数定义(基、配体、温度等)到5轮优化循环的完整流程。结果显示,仅需25次实验就能将平均产率从45%提升至89%,最佳产率达97%。该方法相比传统设计显著减少实验次数,并支持SHAP分析参数重要性。贝叶斯优化特别适合高成本、高维度的化学实验优化,为药物研发提供智能解决方案。
2025-08-26 17:31:48
179
原创 结构-活性关系SAR中scaffold识别
在药物化学研究中,理解结构-活性关系(Structure-Activity Relationship, SAR)是核心任务之一。分子支架(scaffold)作为化合物核心结构框架,帮助我们分组相似分子、分析取代基影响,并指导分子优化设计。本文将介绍一种基于RDKit的分子支架识别方法,灵感来源于2019年Naveja等人的论文(ACS Omega)。作为药物化学博士生,你可能经常处理大量化合物数据集,这个方法能高效自动化支架提取,提升你的SAR分析效率。本文将逐步解释方法原理、代码实现和实际应用示例。
2025-08-22 16:57:02
101
原创 构效关系(Structure-Activity Relationship, SAR)分析的标准方法:R基团结构解析
RDKit RGD是SAR分析的强大工具,关键在于根据数据集特点灵活配置参数。基础分解:用生成DataFrame,快速对比R基团;控制R标签:通过仅保留母核标注的R基团;手性处理:忽略手性用,提高匹配率;多母核匹配:同时输入相似母核(如苯环/吡啶环),降低未匹配分子数;多取代基拆分:用独立显示多取代基。通过本文的实战案例,可快速掌握RDKit RGD的核心用法,进而高效分析化学数据集、挖掘构效关系。如需进一步探索高级功能(如自定义母核匹配规则),可关注RDKit官方文档更新或在原文评论区提出需求。
2025-08-22 14:54:36
173
原创 BioScientist Agent:用于药物重定位和作用机制解析的知识图谱增强型 LLM 生物医学代理技术报告
采用 DistMult 模型的得分函数。
2025-08-20 14:28:03
125
1
原创 如何用Python打造PubMed API客户端:科研文献检索自动化实践
PubMed提供了官方的Entrez E-utilities API接口,支持程序化检索文献,但直接调用API需处理请求重试、参数封装、数据解析等问题。批量获取文献ID及结构化详情(标题、作者、DOI等)内置重试机制,应对网络波动或API限流统一数据输出格式,便于后续分析(如文献计量、AI文本处理)灵活适配不同检索需求(如指定数据库、结果数量)本文实现的PubMed API客户端,通过封装API请求、重试机制、数据解析,让科研文献检索从“手动点击”变为“代码自动化”。
2025-08-20 12:29:24
269
原创 [Errno 99] error while attempting to bind on address (‘::1‘, 8002, 0, 0): cannot assign requested
Linux/macOS:执行 ifconfig 或 ip addr 查看是否有 inet6 ::1 相关记录,若未启用,需在系统设置中开启 IPv6。Windows:进入「网络连接」→ 选择网卡 → 「属性」,检查是否勾选「Internet 协议版本 6 (TCP/IPv6)」。检查并启用 IPv6(若需要)
2025-08-05 15:46:15
238
原创 医药知识图谱论文精读PharmKG、PrimeKG、DRKG
节点类型包括药物、疾病、蛋白、表型、通路、暴露因素等 10 大类,边类型 30 类,涵盖指示、禁忌、超说明书使用等罕见但临床关键的关系。经过清洗、去重、反向边补全、最大连通子图抽取后,PrimeKG 保留 99.998% 的边,文件大小 1.4 GB,普通 CPU 5 秒内可加载。随后,将 SARS-CoV-1、MERS-CoV、HCoV-229E 等冠状病毒合并为虚拟节点 “CoVs”,所有与病毒相关的基因—疾病、药物—基因边被重定向到该虚拟节点,以共享跨病毒知识。目标是学习一个打分函数。
2025-07-30 17:59:06
781
原创 SMARTS 和 SMIRKS 的区别与用法
SMARTS(SMILES Arbitrary Target Specification)是 SMILES 的拓展语言,用于描述子结构查询模式,即一类分子内是否含有满足特定模式的结构单元 (维基百科它先将 SMARTS 表达式和目标分子都转换为图结构,再进行子图同构匹配,而不是字符比较 (维基百科可以使用通配符、原子类[C,N]、逻辑操作符!;可定义芳性(a)、环系(R<n>r<n>)、键数、键类型等;支持递归 SMARTS 和手性,能够精确指定复杂模板 (用途。
2025-07-25 18:28:59
142
原创 TrialPanorama: Database and Benchmark for Systematic Review and Design of Clinical Trials论文精读
TRIALPANORAMA构建了当前最大规模的临床试验结构化数据库(含165万条记录),并评估了5个LLMs在8项临床试验任务中的表现。研究发现通用LLMs在高风险临床任务中表现不足,尤其在样本量估算(准确率<26%)和试验完成预测(平衡准确率≈50%)等需要统计推理的任务上存在明显短板。研究提出了三个关键方向:开发领域适配模型、应用检索增强生成技术、优化数据质量与覆盖。该工作为临床试验AI研究提供了标准化数据库、评估框架和明确的研究路径,推动该领域向数据驱动转型。数据库和基准已公开,支持后续扩展研究
2025-07-13 23:52:00
1091
原创 Extraction of organic chemistry grammar from unsupervised learning of chemical reactions论文代码详解
这篇研究文章主要介绍了一种利用Transformer神经网络从无监督学习化学反应中提取有机化学语法的方法。研究表明,Transformer神经网络无需监督或人工标记就能学习产物和反应物之间的原子映射信息。研究人员利用Transformer的注意力权重,构建了一种与化学无关的、注意力引导的反应映射器,并从无注释的反应集中提取出连贯的化学语法。这种方法在准确性和速度方面表现出色,即使对于原子映射复杂的强不平衡和化学复杂反应也是如此。
2025-07-09 12:27:59
141
原创 Sequential Predictive Modeling of Clinical Trial Outcome with Meta-Learning解读
SPOT通过主题发现模块(Topic Discovery)将临床试验数据聚类为多个主题(topic),每个主题包含具有相似特征(如疾病类型、治疗方案、试验设计)的试验。由于同一主题的试验在时间上具有连续性(按时间戳排序),SPOT将每个主题的时序试验序列定义为一个“任务”。动机:临床试验数据存在严重的不平衡性(如某些疾病或治疗方案的试验数量少,属于“小众任务”)。元学习的核心优势是“学习如何学习”,能在少量数据上快速适应新任务,因此适合处理这类不平衡场景。
2025-07-08 17:08:05
731
原创 Trial2Vec,SECRET: 如何解决Embedding模型输入文本过长的问题
Trial2Vec与SECRET分别提出创新方案解决长文本处理难题。Trial2Vec通过分层编码(关键属性/上下文分离)和医学知识增强的对比学习,有效聚合长文本语义,在临床试验检索任务中Precision@1达0.881,较基线提升15%。SECRET则转化长文本为问答对(如纳入标准→Q/A),结合局部与全局对比学习,召回率提升78%。两者均规避传统平均池化的信息丢失问题,前者侧重结构化语义聚焦,后者通过Q/A对压缩文本长度,为医学长文本分析提供了可迁移框架。
2025-06-25 14:04:33
690
原创 一文读懂开源AI框架REINVENT 4
REINVENT 4的出现标志着AI从"辅助工具"向"核心设计者"的转变。这一转变不仅体现在技术层面上,还体现在理念和方法上。REINVENT 4通过迁移学习突破数据限制、以阶段学习处理多属性约束、用多样性机制规避模式崩溃,系统性解决了传统虚拟筛选的效率瓶颈。这种系统性的解决方案使得AI在药物设计中的作用从辅助工具提升到了核心设计者的地位[0REINVENT 4的设计理念和方法为未来的AI药物设计指明了方向。首先,迁移学习策略展示了如何利用有限的数据快速调整模型,使其适应特定的药物发现任务。
2025-06-04 17:28:46
309
原创 S-groups(Substructure Groups)介绍
缩写基团可以作为较大分子的一部分,通过其连接点与其他片段相连。使用化学官能团和分子的缩写,可以创建更紧凑的结构。或者,缩写基团可以以其完整的扩展形式显示,以更详细地描述分子的关键部分。S-groups或子结构基团是化学结构的重要组成部分,包含Generic S-groups和预定义的Abbreviated groups(Superatom S-groups)。部分编辑器提供了多个化合物家族的缩写基团(如碳水化合物、氨基酸等)。这些结构可以通过工具栏中的“缩写基团”按钮访问。
2025-03-19 00:52:48
132
原创 CXSMILES细则-用于在 SMILES 字符串后存储分子的特殊特征
Chemaxon 扩展 SMILES/SMARTS 用于在 SMILES 字符串后存储分子的特殊特征。任何信息都可以存储在 SMILES 字符串后,只要它们由空格或制表符字符分隔,因为 SMILES 解析器会忽略这些信息,或者将它们作为注释使用。扩展特征以以下格式存储:Chemaxon 的扩展 SMILES/SMARTS 不包含非 ASCII 字符,它们通常以字符代码 n 的形式被转义为 &#n;。在 S-group 中,ASCII 字符“,”、“;”、“|”、“{”、“}”也以这种方式转义。此外,符号“$
2025-03-18 21:48:59
248
原创 Docker Desktop无法安装报错(求助记录中)
之前Docker Desktop无法使用,报了一个注册表的错误(忘记截图)我想着更新安装下应该就好了,结果Docker Desktop一直无法安装,花了几天都没解决。同时我的window11更新也出现下载。Docker Desktop版本安装失败4.31.1。Microsoft Windows 11 专业版。异常,启动或关闭Windows功能为空。运行修复 Windows 映像和组件存储。
2025-02-08 01:05:09
1504
6
原创 java将本地依赖批量打包
单个jar包依赖项格式输出将lib下所有jar包,手动复制到pom.xml下,在所有依赖上添加 optional 标志,这样可以防止 Maven 尝试从远程仓库解析依赖。
2024-12-05 16:09:59
534
半导体设备研究系列之明暗场缺陷检测设备
2024-02-05
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅