CAAS_IFR_zp-CSDN博客

原创 PhaBOX2：病毒组分析pipline

PhaBOX是一个用于噬菌体预测和分类的生物信息学工具。安装时需先创建conda环境并激活（mamba create -n phabox2.1.13，mamba activate phabox2.1.13），然后下载数据库（wget获取phabox_db_v2_2.zip并解压）。使用命令"phabox2 --task end_to_end --dbdir phabox_db_v2_1/ --outpth output_folder --contigs input_contigs.fa --thr

2026-06-04 16:26:31 51

原创 MMseqs2：序列聚类

摘要：本文介绍了MMseqs2（一种高效的序列搜索和聚类工具）的安装和使用方法。安装部分提供了获取预编译版本（支持AVX2指令集）的命令，包括下载、解压和设置环境变量。使用部分展示了easy-cluster命令进行序列聚类的基本参数：设置最小序列相似度0.95、覆盖度阈值0.90、E值0.001，并指定线程数。该工具适用于大规模生物序列分析，能快速处理高通量测序数据。

2026-04-20 17:35:36 64

原创 vConTACT3: 机器学习实现可扩展和系统的病毒层级分类

文章摘要介绍了vContact3病毒聚类分析工具的安装与使用方法。首先通过Mamba创建Python 3.10环境并激活，然后从Bitbucket克隆vContact3代码库进行安装。需要下载v232版数据库并解压，通过Bioconda安装依赖项。使用示例展示了如何运行vContact3对病毒基因组进行聚类分析，主要参数包括输入文件(-n)、数据库路径(-d)、数据库版本(--db-version)、相似度阈值(-t)等，支持输出Cytoscape格式文件(-e)。该工具适用于宏基因组数据中病毒操作分类单元

2026-04-16 23:25:04 75

原创 PICRUSt2-SC：16s功能注释的更新

自 2.6.0 版本起，PICRUSt2-SC 数据库随 PICRUSt2 预装。

2026-01-23 16:50:07 520

原创 sylph - 基于 ANIs 的快速精确物种水平宏基因组分析

Sylph是一种高效的宏基因组分析工具，其安装和使用流程如下：首先通过Mamba创建环境并安装Sylph主程序，随后下载GTDB-r226参考数据库。分析过程分为两步：1）使用sylph profile命令进行序列注释，生成profiling.tsv结果文件；2）通过sylph-tax工具将注释结果转换为物种丰度矩阵。该工具支持多线程（-t参数）加速分析，最终输出all_samples_taxonomy_matrix.txt作为下游分析的基础。配套的GitHub文档和数据库资源为使用者提供了完整的支持。

2026-01-14 11:40:00 333

原创 PALADIN：蛋白质序列比对与检测界面

本文介绍了PALADIN（Protein ALignment And Diversity INvestigator）工具的安装和使用流程。PALADIN是一个用于蛋白质序列比对的生物信息学工具，可通过GitHub获取。安装步骤包括克隆代码库、创建conda环境并编译。使用流程包括：1)准备参考蛋白数据库；2)对双端测序数据进行比对；3)提取基因计数；4)合并双端结果并计算CPM/RPKM表达量；5)生成表达量矩阵。该流程可实现从原始测序数据到基因表达量矩阵的自动化分析，适用于宏基因组等研究。

2026-01-14 09:49:31 371

原创 ShortBRED：特异性蛋白的搜索

ShortBRED是一个用于分析宏基因组数据的生物信息学工具，能够将目标蛋白质家族转化为独特的标记序列，并在测序数据中检测其存在和丰度。该流程分为两个步骤：首先通过shortbred_identify.py从目标蛋白和参考蛋白中识别特异性标记，然后使用shortbred_quantify.py在测序数据中量化这些标记。安装需要Python 2.7环境和相关生物信息学软件（如BLAST、MUSCLE等）。使用时可指定目标蛋白集、参考蛋白集及USEARCH路径，支持多线程处理（如180线程），并设置相似度阈值（

2026-01-12 14:52:49 249

原创 BEAUT：胆汁酸酶注释

本文介绍了一个完整的酶功能预测与分析流程，主要包含以下步骤：1) 使用BEAUT工具进行酶预测，通过eggNOG预处理和ESM-2模型提取蛋白质特征；2) 应用CLEAN模型进行酶分类号(EC)预测；3) 利用EFI-EST工具进行蛋白质序列聚类分析。流程包括数据预处理、模型预测、结果整合和统计分析，最终输出包含预测得分、EC分类和聚类信息的CSV文件。该流程整合了多种生物信息学工具和方法，可用于宏基因组数据中酶功能的系统预测和分析。

2026-01-02 16:44:47 849

原创 antismash：BGC查找；bigscape2处理结果

本文介绍了antiSMASH（抗生素及次级代谢产物分析工具）的安装与使用方法。通过Mamba安装8.0.4版本，配置数据库后，使用命令行对FASTA格式文件进行批量分析。关键步骤包括：激活环境、下载数据库、准备数据，以及通过循环脚本对多个基因组文件进行分析（使用Prodigal基因预测，设置90个CPU核心）。相关资源链接包括antiSMASH官网和NAR期刊文献。该流程适用于细菌次级代谢产物基因簇的自动化检测与分析。

2025-11-27 22:39:45 368

原创 smetana 基于基因组代谢模型的菌株互作计算

摘要：本文介绍微生物群落互作分析工具SMETANA的安装与使用流程。通过Mamba环境管理工具创建并激活专用环境后，从Bioconda渠道安装该软件。使用时可选择两种分析模式：详细模式（--detailed）输出特定互作结果至TSV文件，全局模式（--global）生成群落整体互作分析报告。输入文件需为XML格式，适用于微生物群落的功能代谢网络分析。

2025-11-23 22:37:48 206

原创 Cytoscape：共现网络可视化

本文介绍了使用Cytoscape软件进行网络可视化的基本步骤。主要包括：导入网络文件后，调整字体大小至期刊常用规格；将连线按正负相关关系设置为不同颜色；用不同颜色标注不同类别的菌株（如不同门类）；添加便于操作的标签（支持String或数值型）；通过鼠标拖动调整节点位置。文章假设读者已掌握软件安装方法，重点说明了美化网络图的关键操作技巧，适合科研人员快速掌握基础的网络可视化方法。

2025-11-23 17:17:31 249

原创 clusterProfile包用于宏基因组学富集分析

摘要：该流程展示了宏基因组数据的分析步骤，包括：1）使用Prodigal预测基因并CD-HIT去冗余；2）通过bwa-mem2比对和samtools处理获取基因表达量（TPM）；3）利用eggNOG-mapper进行功能注释；4）在R中使用clusterProfiler进行KEGG富集分析。分析流程包含自定义Python脚本处理TPM计算和注释结果整合，最终通过差异分析和可视化比较健康与腹泻样本的功能特征。关键步骤涉及基因预测、去冗余、表达量计算、功能注释和富集分析，适用于宏基因组功能研究。

2025-11-07 15:42:35 587

原创 metaboanalyst使用初探

进入https://www.metaboanalyst.ca/ 公司说这个表格是归一化过的，在网址里面点Concentration就可以。根据公司返回的代谢物相对丰度值（峰面积值），单位就是intensity，构建一个表。上述归一化是ai说的比较常用的。

2025-10-13 14:14:33 404

原创 CarveMe：代谢模型构建

本文介绍了CarveMe代谢网络重建工具的安装与使用流程。首先通过conda/mamba创建Python 3.9环境并安装1.6.6版本。详细说明了如何修改carve.py源代码以支持批量处理，包括添加递归模式参数处理和多进程功能。工具支持多种输入类型（蛋白质/DNA序列、eggNOG注释等），可进行模型重建、gap filling和ensemble生成。关键参数包括--universe指定反应库、--gapfill进行间隙填充、--ensemble生成模型集合等。最后给出了批量处理命令模板，支持通配符输入

2025-09-30 22:21:36 427

原创 PathogenFinder2：判断致病菌

PathogenFinder2 是一个用于病原体预测的基因组分析工具。安装步骤包括：1）创建并激活名为 PathogenFinder2 的 mamba 环境（Python 3.11）；2）克隆 GitHub 仓库；3）通过 pip 安装。使用命令为"pathogenfinder2 predict -i 输入文件 -f 格式 -o 输出目录"。该工具相关预印本论文已发表在 bioRxiv（DOI:10.1101/2025.04.12.648497）。安装过程简单，适合快速部署用于病原体基因

2025-09-24 20:52:23 391

原创 KrakenUniq去宿主

摘要：本文介绍了使用krakenuniq进行分类分析的操作流程。首先通过mamba安装krakenuniq工具，然后下载牛基因组作为宿主参考序列并添加到数据库。接着下载分类学数据并构建索引（使用16线程）。最后运行krakenuniq分析双端测序数据，输出未分类和宿主分类的序列文件，以及结果报告。关键步骤包括数据库构建、分类数据下载和序列分类分析。

2025-09-22 10:05:04 281

原创 run_dbcan：碳水化合物酶注释

文章摘要：本文介绍使用run-dbcan工具进行CAZyme注释分析的基本流程。

2025-09-14 19:28:26 360

原创质粒预测软件：PlasFlow，geNomad，PlasClass

本文介绍了两种质粒预测工具PlasFlow和PlasClass的使用方法。PlasFlow需要先过滤短序列（>1000bp），然后运行预测；PlasClass可直接对fasta文件进行分类。两者均通过conda环境安装，提供简单易用的命令行界面，适用于基因组数据中的质粒序列识别。这些工具可帮助研究人员从宏基因组数据中准确分离质粒DNA。

2025-09-13 09:42:11 410

原创 mash查看宏基因组原始数据相似性

【代码】mash查看宏基因组原始数据相似性。

2025-09-09 16:16:50 349

原创 ARGs_OAP：抗性基因注释（新增VFDB:毒力因子和mobileOG-db可移动元件）

本文介绍了使用ARGs-OAP工具分析宏基因组数据的流程。首先通过conda安装ARGs-OAPv3.2.4和SARGv3.2.1，创建专用环境。分析分为两个阶段：stage_one处理原始数据（支持fastq.gz格式），stage_two进行统计分析。注意双端测序数据需按规范命名（如_1/_2、_R1/_R2或_fwd/_rev结尾），否则会被视为单样本。命令行中指定输入输出目录和线程数（-t180）。该流程适用于宏基因组抗生素抗性基因分析。

2025-08-20 14:22:47 1674 2

原创测序原始数据上传公共数据库（还有代谢组）

NCBI提交包括三个步骤：1）创建Bioproject项目并填写元数据；2）提交Biosample样本信息，需注意表格格式要求；3）准备SRA数据提交，建议使用Aspera工具上传原始数据文件，需确保使用完整路径。文中特别强调了表格填写细节和文件上传注意事项，如避免重复行、使用绝对路径等

2025-07-22 08:25:51 1680

原创毒力因子快速注释

VirulenceFinder 2.0

2025-07-07 17:27:49 289

原创 BRAKER：真核微生物cds和蛋白注释

摘要：本文介绍BRAKER3基因组注释工具的使用流程。首先通过Docker运行测试脚本，生成GTF、FASTA和GFF3格式的基因集。然后详细说明RepeatMasker的安装和运行步骤：1)使用conda创建环境并安装软件；2)建立基因组数据库；3)运行RepeatModeler和RepeatMasker进行重复序列屏蔽。最后展示BRAKER3正式运行命令，使用屏蔽后的基因组和蛋白质序列进行注释。关键输出文件包括.masked文件和多种格式的注释结果。

2025-07-03 22:37:59 565

原创 EukDetect：基因标记基因的真核微生物注释

摘要：本文介绍了EukDetect软件在真菌组分析中的应用及其安装使用流程。EukDetect通过比对NCBI数据库中的标记基因来检测真核生物序列，具有较高的准确性。安装过程包括克隆GitHub仓库、下载数据库、创建conda环境等步骤。配置文件需设置输出路径、测序数据参数（如read长度150bp）、样本名称等关键信息。运行命令使用32个核心进行全流程分析。该工具为宏基因组数据中的真菌检测提供了有效解决方案，弥补了现有软件和数据库的不足。

2025-06-23 17:01:53 388

原创 EukCC：真核MAG完整性检验

摘要：EukCC是一款用于评估从宏基因组分析中获得真核生物基因组质量的工具。安装过程包括下载数据库（eukcc2_db_ver_1.2）并设置环境变量，通过conda创建eukcc环境并激活。使用时只需指定输入文件夹（包含.fa后缀的基因组文件）、输出文件夹和线程数等参数即可运行。该工具简化了真核基因组质量评估流程，适用于宏基因组学研究。

2025-06-19 16:00:08 364

原创 GutEuk：反刍动物宏基因组真核序列注释

文介绍GutEuk微生物基因组分析工具的安装和使用方法。

2025-06-18 16:21:01 263

原创 Deseq2：MAG相对丰度差异检验

本研究构建了一套完整的宏基因组关联分析流程：首先利用drep工具将contigs与MAGs进行关联，通过bwa-mem2进行序列比对并统计reads计数；随后开发Python脚本整合不同样本的raw reads数据，并通过contig-bin映射关系将计数转化为bin水平；最终使用DESeq2进行差异分析，识别显著差异的MAGs，并通过火山图可视化结果。

2025-05-31 20:38:48 433

原创 contigs的raw counts转化到bin的raw counts

摘要：该Python脚本用于将原始contig水平的reads计数聚合到bin水平。通过读取contig-to-bin映射文件和contig计数矩阵，脚本合并数据后按bin分组求和，最终输出bin水平的计数矩阵。

2025-05-31 17:01:07 340

原创 md5sum：批量检查文件是否完整

摘要：本文简要介绍了如何准备和使用MD5校验文件。首先需要准备一个包含校验信息的文件（如公司提供的文件），然后使用md5sum命令对该文件进行校验，生成md5.txt校验文件。这一过程通常用于验证文件的完整性和真实性。

2025-05-24 14:40:29 253

原创 mOTUs4：根据标记基因预测宏基因组物种相对丰度

mOTUs是一款用于基于标记基因的OTU（操作分类单元）分析的工具，适用于微生物组研究。

2025-05-19 12:47:31 319

原创 CoverM：contig/bin的相对丰度计算

GitHub上的CoverM工具用于计算宏基因组学中的读段比对统计信息。安装过程包括使用Mamba创建环境、激活环境并安装CoverM。使用CoverM时，可以通过命令行工具coverm -h查看帮助信息。示例脚本展示了如何批量处理fastq.gz格式的测序数据，使用CoverM计算基因组的相对丰度和覆盖度，并将结果输出到指定目录。脚本首先激活conda环境，然后遍历指定目录下的文件，针对每个样本调用CoverM进行分析，最终生成统计结果文件。

2025-05-17 22:33:18 764

原创 MetaHipMer2：从头组装宏基因组

本文介绍了如何安装和配置MetaHipMer2（MHM2）环境，以支持Terabase级别的宏基因组共组装。首先，通过Conda创建并激活名为mhm2_env的环境，并安装必要的依赖项，如CMake、GCC、UPC++、Make、Git和CUDA工具包（如果需要GPU支持）。接着，下载并解压UPC++和MHM2的源代码，配置UPC++的安装路径，并编译安装。然后，通过修改build.sh脚本中的CMake配置，指定MPI C++编译器，并执行编译过程。最后，通过运行mhm2.py脚本验证安装是否成功。整个过

2025-05-14 22:12:05 413

提取eggNOG结果文件中的GO号并计数

空空如也