自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Protein Designer的博客

计算生物学硕士,长期从事人工智能、生物信息学与深度学习领域的研究与开发。具备丰富的Python、机器学习、深度学习、数据挖掘及分子建模实战经验。发表多篇技术博客,致力于用通俗易懂的方式分享前沿技术。

  • 博客(45)
  • 收藏
  • 关注

原创 Python:批量下载已知gene symbol蛋白的PDB文件

本文介绍了一个Python脚本,用于自动化批量下载蛋白质结构数据。该脚本通过蛋白质基因symbol查询UniProt ID,再检索RCSB PDB数据库获取对应条目,最后调用Bash脚本批量下载.pdb和.cif格式的结构文件,并自动重命名为{symbol}_{pdbid}.ext格式以便后续分析。主要功能包括:1)通过UniProt API获取人类Reviewed条目的UniProt ID;2)通过RCSB PDB Search API查询对应PDB条目;3)调用外部Bash脚本批量下载结构文件;4)自动

2025-10-28 21:01:50 163

原创 NC图表复现 | GSEA图

摘要: 本文基于《Nature Communications》一篇关于白色念珠菌通过改变鞘脂组成获得唑类抗药性的研究,复现了其GSEA分析图。原图揭示了脂质代谢通路在药物抗性中的关键作用。由于原始数据未公开,作者使用示例数据重建了包含双通路比较的GSEA图,通过红色(Pathway1)和蓝色(Pathway2)曲线展示富集趋势,并标注关键基因与统计参数(p值、ES值)。图中橙色竖线表示共享基因,底部灰色条带显示基因表达差异分布。附带的R代码可直接生成PDF/PNG格式图像,为相关研究提供可视化参考。(149

2025-10-25 11:45:22 208

原创 NC图表复现|简单易用火山图

本文基于《Nature Communications》一篇关于白色念珠菌唑类耐药性的论文,通过构建模拟数据实现了火山图与功能注释的可视化分析。文章展示了如何利用R语言的ggplot2和ggrepel包绘制增强型火山图:1)使用不同颜色标记显著上调/下调基因;2)对筛选的top基因进行随机分类并添加通路注释;3)通过文本标签和颜色图例突出关键基因。虽然示例中的通路注释为随机生成,但该方法为差异表达基因的功能分析提供了实用可视化方案,适用于生物信息学基础学习。全部代码已公开,包含数据预处理、可视化参数设置及图形

2025-10-25 09:25:27 57

原创 学习笔记3-深度学习之logistic回归向量化

向量化加速机器学习计算 本文介绍了向量化技术在机器学习中的重要作用,通过矩阵运算替代显式循环可显著提升计算效率。核心内容包括: 向量化优势:相比for循环,NumPy向量化运算可提速百倍,代码更简洁优雅 Logistic回归实现: 前向传播:Z=WᵀX+b,A=σ(Z) 反向传播:dZ=A-Y,dW=(1/m)X·dZᵀ,db=(1/m)ΣdZ 实现技巧: 避免使用秩为1的数组 合理利用广播机制 添加assert确保矩阵维度正确 数学推导:从极大似然角度解释了交叉熵损失函数的合理性 向量化技术充分利用底层优

2025-10-17 16:39:10 582

原创 学习笔记2: 深度学习之logistic回归梯度下降

梯度下降是一种优化算法,通过迭代更新参数(如w和b)来最小化代价函数J(w,b)。对于logistic回归,使用交叉熵损失函数,并通过计算偏导数来更新权重和偏置。在多个样本上,代价函数是所有样本损失的平均值,参数更新涉及对所有样本梯度的平均。然而,当参数和样本量很大时,显式循环计算效率低下,因此需要引入向量化技术来加速计算。向量化能有效减少循环操作,提升计算性能。

2025-10-13 20:16:08 1112

原创 学习笔记1--深度学习之logistic回归简介

本文介绍了Logistic回归的基本原理及其在二分类任务中的应用。Logistic回归通过sigmoid函数将线性组合转换为概率输出,适用于如判断图片是否有猫等任务。文章详细阐述了模型的数学表示、符号系统,重点讲解了交叉熵损失函数的定义及其相较于均方误差的优势。交叉熵损失能更好处理概率输出,避免非凸优化问题,使模型训练更稳定。代价函数则用于评估整体训练集表现。文中还通过具体样例说明了损失函数如何引导模型输出接近真实标签。

2025-10-13 16:36:33 1014

原创 利用TCGA数据库实现高水平转录组挖掘----实战指南

《TCGA转录组分析实战教程》系统介绍前列腺癌等多组学数据挖掘全流程,涵盖数据预处理、差异分析、功能富集、预后模型构建等核心环节。教程基于XENA平台获取TCGA标准化数据,结合R语言工具完成从基础分析到GSEA、免疫浸润、药物敏感性等深度挖掘,并详细讲解生存分析、列线图等临床转化方法。特色在于提供可重复的代码与实操案例,帮助研究者快速掌握肿瘤转录组分析技术,特别适合生信初学者和临床科研人员系统学习。该系列通过规范化流程与可视化呈现,助力产出高质量研究成果。

2025-08-22 15:50:30 1368

原创 转录组分析流程(十一):WGCNA分析

本研究通过WGCNA共表达网络分析扩增候选基因集,以解决目标基因与差异基因交集不足的问题。首先对疾病组和对照组的差异表达基因进行筛选,确保高低ssGSEA分组生存分析存在显著差异。随后构建加权基因共表达网络,利用模块基因与目标基因集的相关性筛选模块基因,作为候选基因集的扩充。通过单因素Cox分析鉴定142个预后相关基因(p<0.05),为后续基因富集分析和Cox回归提供基础。该方法可有效扩大候选基因范围,为疾病预后研究和治疗靶点筛选提供新思路。

2025-07-13 11:04:50 907

原创 转录组分析流程(十):基因组突变分析

本研究通过生物信息学方法分析前列腺癌基因组变异特征及其临床意义。首先从TCGA-GDC获取前列腺癌突变数据,使用maftools包对MAF格式文件进行解析,计算肿瘤突变负荷(TMB)并评估其与患者风险分组的关联。研究流程包括:数据预处理、生存样本筛选、TMB计算及可视化分析。结果表明,TMB作为免疫治疗潜在预测指标,在不同风险组间可能存在差异,为前列腺癌个体化治疗提供分子依据。分析整合了表达矩阵、临床信息和突变数据,采用R语言实现自动化处理与可视化。

2025-07-05 09:34:18 541

原创 Python实现计算分子的溶剂可及性表面积

本文介绍了溶剂可及性表面积(SASA)的概念及其在生物分子结构分析中的应用,特别是针对糖蛋白的研究。SASA计算采用MSMS算法,通过"滚动球"方法生成分子表面并计算面积。文章详细解析了糖链暴露度的计算原理,公式为ΔSASA = SASA(ligands) - [SASA(protein) + SASA(ligands) - SASA(complex)]/2,并提供了Python代码实现,包括xyzr文件生成、MSMS调用和糖链SASA计算。该方法可用于分析糖链在蛋白质表面的分布、

2025-07-04 15:20:20 540

原创 转录组分析流程(零):流程介绍

本教程系统介绍了转录组分析全流程,从数据下载到高级分析应用。内容涵盖转录组基础知识(RNA-seq技术、scRNA-seq特点)和9大核心分析步骤:数据预处理、差异分析、功能富集、预后基因筛选(Cox+Lasso)、生存分析、列线图构建、GSEA分析、免疫浸润评估及药物敏感性预测。重点解析了基因定量方法(TPM/FPKM)、差异分析工具(DESeq2/edgeR)、功能注释(GO/KEGG)等关键技术,并延伸至临床转化应用(预后模型构建、药物靶点筛选)。该流程整合bulk RNA-seq与单细胞数据,为疾病

2025-07-03 23:21:06 2257

原创 转录组分析流程(九):药物敏感性分析

本研究通过生物信息学方法分析肿瘤患者药物敏感性,利用pRRophetic算法预测化疗药物IC50值,评估风险评分与药物敏感性的关联。研究流程包括:1)从GDSC/CCLE数据库获取药物数据;2)基于弹性网络回归模型预测药物敏感性;3)结合临床风险分组进行相关性分析(Wilcoxon/t检验)。结果显示不同风险组对特定化疗药物的敏感性存在显著差异(p<0.05),为个体化治疗提供参考。分析采用R语言实现,包含数据预处理、模型预测和可视化(箱线图)等步骤,最终筛选出与风险评分显著相关的候选药物。

2025-07-02 19:59:25 269

原创 转录组分析流程(八):免疫浸润分析

本文介绍了一种综合生物信息学方法,通过整合bulk RNA-seq数据,分析前列腺癌预后基因的临床价值及其分子机制。研究采用CIBERSORT、ESTIMATE和TIDE等算法解析肿瘤免疫微环境特征,评估免疫细胞浸润与预后的关联。方法包括:1) 使用CIBERSORT量化免疫细胞亚群比例;2) 应用ESTIMATE算法计算基质/免疫评分;3) 利用TIDE预测免疫治疗反应。通过R语言实现数据处理与可视化,揭示了免疫浸润模式与患者生存的显著相关性,为前列腺癌免疫治疗靶点筛选提供了新思路。

2025-07-01 20:26:25 610

原创 转录组分析流程(七):GSEA分析

本研究通过整合bulk-RNA-seq数据,探索预后基因在疾病中的潜在机制。首先利用GSEA和GSVA分析11个预后基因的功能富集,发现其显著关联的通路。GSVA将表达矩阵转化为通路活性评分,通过差异分析鉴定高低风险组间的活性差异通路。单细胞水平分析揭示预后基因的细胞特异性表达及互作网络。分子对接初步筛选潜在靶点药物。方法学上详细介绍了R语言实现GSEA和GSVA的流程,包括数据预处理、基因集定义、结果解释等关键技术细节。该多组学分析策略为疾病预后评估和靶向治疗提供了新思路。

2025-07-01 20:25:39 535

原创 转录组分析流程(六):列线图

以下是基于您提供内容的150字摘要: 本文介绍了前列腺癌预后分析中列线图的应用方法。研究整合了年龄、Gleason分级、AJCC分期等临床特征,通过单因素和多因素Cox回归筛选预后因子,构建预后模型。利用rms和survival包实现列线图可视化,将多因素回归结果转化为直观评分系统,帮助临床评估个体化风险。研究包含数据清洗、模型构建、结果解释等完整流程,特别强调需通过校准曲线验证预测准确性,并在独立队列中进行外部验证。列线图可直观展示各预测因素对生化复发(BCR)的影响,为临床决策提供量化依据,但需注意模型

2025-07-01 20:24:48 531

原创 转录组分析流程(五):生存分析

本文介绍了一种利用公共数据库数据(bulk-RNA-seq和scRNA-seq)进行生物信息学分析的方法,通过预后基因筛选、生存分析、单细胞水平表达分析和分子对接等手段,探索疾病潜在治疗靶点。文章详细讲解了生存分析的基本概念和方法(Kaplan-Meier法、Log-rank检验),并提供了R语言代码示例。同时介绍了时间依赖性ROC分析在评估预测模型性能中的应用,包括三种定义方式和实际操作步骤。实战部分展示了如何基于Lasso筛选的预后基因构建风险评分模型,并进行生存分析。该分析方法为疾病临床治疗提供了新的

2025-07-01 20:23:50 316 2

原创 转录组分析流程(四):Cox+Lasso筛选预后基因

本教程通过生物信息学方法探索疾病预后基因及其分子机制。首先利用公共数据库的bulk-RNA-seq数据进行挖掘,通过单因素COX回归分析筛选潜在预后基因,评估风险比(HR)及其显著性。进一步采用Lasso回归分析处理高维数据,选择关键变量防止过拟合。在单细胞水平分析(scRNA-seq)中研究预后基因表达模式和细胞通讯网络,为临床治疗提供新靶点。最后通过分子对接实现药物靶点初步筛选。该方法结合生存分析和机器学习,为疾病预后研究提供系统性分析框架。

2025-07-01 20:22:46 738

原创 转录组分析流程(三):功能富集分析

本文介绍了一套基于公共数据库的RNA-seq数据分析流程,通过生物信息学方法探索疾病预后基因及其分子机制。首先利用GO和KEGG富集分析解析差异表达基因的功能,GO分析从生物过程、细胞组分和分子功能三个维度进行注释,而KEGG则聚焦代谢和信号通路。此外,还介绍了PPI网络分析的价值,它能识别关键调控蛋白和功能模块。文中详细演示了使用R包clusterProfiler进行功能富集分析的实战步骤,包括基因ID转换、GO/KEGG分析及结果可视化。这套分析流程为疾病机制研究和临床治疗靶点筛选提供了系统方法。

2025-07-01 20:22:06 336

原创 转录组分析流程(二):差异分析

摘要:本教程通过生物信息学方法分析RNA-seq数据,探索疾病预后基因及其分子机制。主要介绍DESeq2和limma两种差异分析方法:DESeq2适用于原始read counts数据,基于负二项分布模型进行标准化和差异检验;limma适用于log2转换后的表达矩阵,通过线性模型和经验贝叶斯方法分析差异基因。教程包含代码实现及数据预处理步骤,旨在为疾病治疗提供新参考,并初步筛选药物靶点。

2025-07-01 20:21:08 1011

原创 转录组分析流程(一):数据下载与预处理

本教程通过挖掘TCGA和XENA数据库的前列腺癌(PRAD)数据,利用生物信息学方法探索目标基因集的预后潜力及分子机制。首先从TCGA获取临床数据、FPKM和Counts表达矩阵,筛选生化复发期(BCR)作为预后指标,并整合生存数据。通过预处理去除低质量样本,结合GENCODE注释文件标准化基因表达矩阵。进一步计划在单细胞层面(scRNA-seq)分析预后基因的表达模式与细胞互作网络,结合分子对接技术筛选潜在药物靶点,为前列腺癌治疗提供新思路。分析流程涵盖差异表达、生存分析、细胞通讯等多维度研究。

2025-06-28 20:10:50 2010

原创 Python实现使用DGL对蛋白质PDB文件建图

本文将介绍如何利用DGL和Biopython将PDB蛋白质结构文件转换为图神经网络适用的图结构。主要内容包括:1) 解析PDB文件的四层结构,提取Cα原子作为节点;2) 设计节点特征(空间坐标、氨基酸类型编码)和边特征(肽键、二硫键);3) 使用DGL接口构建蛋白质图结构,支持批量处理和保存。文章还提供了关键代码实现,涵盖氨基酸编码转换、特征工程和图构建等核心步骤,为蛋白质结构分析提供深度学习解决方案。

2025-06-19 14:42:12 302 2

原创 Python实现自动化识别蛋白-配体氢键

本文介绍了一种自动化识别蛋白-配体氢键的完整流程。该方法结合Python、MDAnalysis、Open Babel和VMD工具,实现高效批处理分析。主要步骤包括:1)通过Open Babel为PDB结构添加氢原子;2)使用MDAnalysis筛选配体周围4Å内的蛋白残基;3)利用VMD命令行脚本自动分析氢键;4)结构化保存结果。该流程支持全自动批量处理,无需人工干预,适合大规模结构数据库分析,且可灵活调整氢键参数。文末提供了可直接运行的Python代码实现,整合了obabel加氢和VMD氢键分析功能。

2025-06-11 19:28:41 532

原创 背景扩充:糖苷键的类型与表示方法 +python实现对糖分子名称的读取

糖苷键是连接糖分子与其他分子的共价键,可分为α和β两种构型。本文系统解析了糖苷键的组成要素、形成机制、类型及表示方法。糖苷键通过亲核取代反应形成,生物体内由糖基转移酶催化完成,具有高度特异性。文章详细阐述了糖苷键的化学特性、构型判定标准及常见连接方式,并展望了糖科学在医药、材料等领域的发展前景。理解糖苷键对揭示生命分子基础和创新应用具有重要意义。

2025-06-04 15:37:17 1346

原创 AutoDock分子对接指南

本指南涵盖了AutoDock和AutoDock Vina分子对接的完整流程,从软件安装到结果分析。通过对蛋白和配体的细致准备、对接参数设置以及结合域的观察,可以有效提高分子对接的准确性和可靠性。

2025-06-03 16:51:08 836

原创 PDBfixer:蛋白质结构修复工具

本文介绍蛋白质数据银行(PDB)文件常见问题及修复工具PDBFixer的使用方法。PDB文件常存在缺失原子、残基等问题,PDBFixer可通过GUI、命令行或Python API实现自动化修复。文章详细说明安装方法、命令行参数、Python脚本修复流程及非标准残基替换表,并与Modeller、ColabFold和Rosetta Remodel等其他修复工具进行对比分析,提供了各工具的特点、适用场景和典型计算时间比较,帮助用户根据具体需求选择合适的修复工具。

2025-05-26 18:38:27 411

原创 使用 Pfam 和 InterProScan 进行蛋白质家族和功能域的分析

本文介绍了使用Pfam和InterProScan进行蛋白质家族与功能域分析的方法。主要内容包括:1) Pfam数据库的本地化使用,通过hmmscan工具比对Pfam-A.hmm数据库,并提供了批量处理Python脚本;2) InterProScan的安装配置与命令行参数详解,支持多数据库整合分析;3) 补充介绍了基于curl的Uniprot在线查询方法。文章提供了从软件安装到实战分析的完整流程,适用于本地化、批量化蛋白质功能注释需求,特别是无网络环境或大规模数据分析场景,适合不同水平的生物信息学用户。

2025-05-26 13:40:31 1552

原创 Python实现PDB文件预处理

蛋白质结构研究依赖PDB文件存储的三维结构数据,但原始文件常含无关的水分子、离子和非标准残基等干扰信息。本文介绍了一个基于BioPython的Python预处理脚本,可自动清理PDB文件,主要功能包括:1)移除短于阈值的蛋白质链;2)过滤非标准氨基酸;3)可选保留水分子和金属离子。该脚本逻辑清晰,支持批量处理,能显著提升结构比对、分子对接等分析前的数据准备效率,为后续生物信息学研究提供更纯净的结构数据基础。

2025-05-22 17:51:08 492

原创 Python实现蛋白质结构RMSD计算

本文介绍了使用Python的Biopython库进行蛋白质结构比对和RMSD计算的方法。蛋白质结构比对是将三维结构进行空间叠加的过程,用于识别相似区域、分析进化关系和构象变化。RMSD(均方根偏差)是评估结构相似性的关键指标,计算原子位置偏差的平方平均值的平方根。文中提供了一个完整的Python实现,包括读取PDB文件、提取Cα原子和主链原子、检查原子数量匹配,以及计算对齐前后四种RMSD值(Cα原子和主链原子的对齐/未对齐状态)。该方法可应用于蛋白质设计验证、分子动力学分析等场景,但需注意序列一致性、原子

2025-05-21 16:22:01 710

原创 文献解读:LigandMPNN

本研究介绍了LigandMPNN,一种基于深度学习的蛋白质序列设计方法,旨在解决现有方法无法包含非蛋白质原子和分子的局限性。LigandMPNN通过引入配体图与蛋白质图的异构图,结合全原子距离表征和随机解码顺序,显著提高了蛋白质序列设计的准确性。实验结果表明,LigandMPNN在小分子、核酸和金属离子背景下的序列恢复率均优于传统方法Rosetta和ProteinMPNN,特别是在金属离子背景下,恢复率高达77.5%。该模型通过增强数据敏感性和引入高斯噪声,进一步提升了设计的鲁棒性。LigandMPNN为蛋

2025-05-20 18:19:23 967

原创 背景扩充:蛋白糖基化理论基础

蛋白质糖基化修饰是生物学中一种重要的翻译后修饰过程,涉及糖链与蛋白质的结合,对蛋白质功能的实现至关重要。糖基化修饰分为N-糖基化、O-糖基化、C-连接糖基化和糖基磷脂酰肌醇(GPI)锚四大类型,其中N-糖基化和O-糖基化研究最为广泛。N-糖基化主要发生在天冬酰胺残基上,过程包括糖链的合成、转移和修饰,而O-糖基化则发生在丝氨酸或苏氨酸残基上,包括O-GalNAc和O-GlcNAc两种类型。这些修饰在细胞信号传递、免疫反应、细胞粘附等生命活动中发挥关键作用,且与多种疾病的发生发展密切相关。

2025-05-09 12:55:24 1927

原创 Linux系统常用命令合集

date “+%Y-%m-%d %H:%M:%S” #xx年xx月xx日 xx时xx分xx秒。​ 蓝色表示目录,白色表示文件,绿色表示可执行文件,红色为压缩包。​ 连接文件,同时打开两个文件,如:cat 文件1 文件2。​ ls -l > ls.txt # 重定向某一目录。​ -a 同时拷贝文件权限,拷贝文件原有属性。​ cp -r 目录 递归复制目录下文件。​ -3 上个月,这个月,下个月日历。​ -V 字符串中含有数值时,按数值排序。

2025-05-01 00:02:18 1471

原创 python-多线程编程

多任务是指在同一时间内执行多个任务。定义举例并发在一段时间内交替执行多个任务单核CPU处理多任务并行在一段时间内真正的同时一起执行多个任务多核CPU处理多任务python中可使用多进程实现多任务。**进程(Process)**是资源分配的最小单位,他是操作系统进行资源分配和调度运行的基本单位。通俗理解:一个正在运行的一个程序就是一个进程。例如:正在运行的qq、wechat等,它们都是一个进程。

2025-04-29 23:44:50 722

原创 tmux常用命令

Tmux是一款强大的终端复用工具,能将会话与窗口分离,支持多任务并行操作。它允许创建多个会话和窗格,实现终端分屏、会话持久化(SSH断连不影响任务)及多人协作。安装简单(apt install tmux或brew install tmux),常用命令包括新建/切换/分离会话、窗格管理(水平/垂直分割)和窗口操作(创建/切换/重命名)。通过配置文件(.tmux.conf)可自定义快捷键和界面。适用于远程开发、多任务调试和实时教学,显著提升命令行工作效率。

2025-04-24 15:48:36 1160

原创 对Alphafold3复合物结构进行评分

在 AI 蛋白结构预测热潮不断升温的当下,如何精准判断预测模型的质量成为了结构生物学的新挑战。随着蛋白质 AI 模型预测走向多组分、跨模态,精确打分系统将成为未来 AI 结构生物学的核心工具之一。本文介绍了不同的打分方法。

2025-04-23 13:44:51 1395

原创 ggplot2绘制小提琴图

本文提供了使用R语言绘制多种小提琴图的代码模板,包括:1)基础无数据点小提琴图;2)带数据点的小提琴图;3)分组小提琴图(按性别);4)半小提琴图;5)结合散点图、箱线图的复合图形;6)云雨图。所有示例均使用palmerpenguins数据集,包含完整的ggplot2绘图代码、颜色设置和主题调整。模板展示了如何通过ggforce、gghalves等扩展包实现进阶可视化效果,适合数据分布展示需求。

2025-04-20 21:51:27 537

原创 ggplot2绘制单列热图+显著性注释

热图(Heatmap)是数据可视化中常用的工具,能够直观展示数据矩阵中的数值分布和模式。本文将详细介绍如何使用R语言中的ggplot2包绘制专业级的单列热图,并逐步添加各类注释信息,最终形成可直接用于发表的科学图表。

2025-04-20 21:31:59 507

原创 PDB常用脚本绘总

本文整理了蛋白质结构分析相关的实用资源,包括Linux基础命令、Anaconda和tmux教程、Python多线程编程等基础内容。重点收录了PDB文件预处理(下载、格式转换、蛋白配体提取)、蛋白质结构分析(RMSD计算、结构评分、聚类)、分子对接(AutoDock)等进阶教程,以及蛋白糖基化理论、糖苷键分析等专业知识。同时提供了Pfam/InterProScan功能域分析工具和最新文献(如LigandMPNN)解读,为蛋白质结构研究提供全面的技术参考。

2025-04-19 08:04:31 485

原创 Python实现PDB文件提取蛋白和配体

本文介绍了一个基于Biopython的Python脚本,用于将PDB文件中的蛋白质和配体自动分离。该脚本能识别标准氨基酸残基(蛋白)与配体(包括小分子、离子、水分子等),分别输出为两个独立的PDB文件。通过命令行参数指定输入文件和输出路径,支持批量处理,适用于结构生物学和分子对接研究中的数据预处理。脚本具有良好的扩展性,可进一步定制以满足特殊需求,如区分特定配体或处理多模型结构。

2025-04-19 07:51:45 391

原创 PDB之批量并行下载PDB文件

本文介绍了一种优化PDB文件批量下载效率的方法。针对RCSB PDB官方脚本串行下载效率低下的问题,作者开发了支持并行下载的改进脚本。该脚本通过后台任务并发处理多个下载请求,设置了最大并发数限制(默认8个),有效利用网络带宽和CPU资源。脚本兼容官方参数格式,支持多种文件类型下载(cif.gz、pdb.gz等),并自动检测curl依赖。实测表明,该方案可显著提升大规模PDB数据获取效率,适用于结构生物学和生物信息学研究中的批量数据处理场景。

2025-04-19 07:43:10 587

原创 PDB转FASTA序列批量转换脚本

本摘要介绍了一个Python脚本,用于将PDB文件批量转换为FASTA格式。该脚本主要功能包括:1)自动提取PDB文件中的氨基酸序列;2)处理标准和非标准氨基酸残基(未知残基标记为'X');3)批量处理目录下所有PDB文件。使用说明简单,只需指定输入和输出目录即可完成转换。脚本还可扩展多链处理、非标准残基过滤等功能。该工具适用于需要将结构数据转换为序列格式的生物信息学分析场景。

2025-04-19 07:31:15 549

80套R语言绘制SCI高分图模板

80套套R语言绘制SCI高分图模板,提供数据处理格式以及原始代码和注释,直接替换自己的数据即可出图。

2025-04-20

ggplot2绘制单列热图+显著性注释

ggplot2绘制单列热图+显著性注释

2025-04-20

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除