简介
http://biom-format.org/
BIOM格式是微生物组领域最常用的结果保存格式,优点是可将OTU或Feature表、样本属性、物种信息等多个表保存于同一个文件中,且格式统一,体积更小巧,目前被微生物组领域几乎所有主流软件所支持:
QIIME
MG-RAST
PICRUSt
Mothur
phyloseq
MEGAN
VAMPS
metagenomeSeq
Phinch
RDP Classifier
USEARCH
PhyloToAST
EBI Metagenomics
GCModeller
MetaPhlAn 2
BIOM格式于2012年Rob Knight首发于我国GigaScience杂志上,被引242次。
The Biological Observation Matrix (or BIOM, canonically pronounced biome) 是微生物组分析的核心数据类型。
我们主要了解以下三方面的内容:
BIOM文件格式的定义;
biom命令对文件格式的转换、添加元数据、总结等;
使用Python和R操作BIOM文件
biom工具安装
常用的biom操作工具是一个python包,可通过pip、conda等安装
# 安装依赖关系科学计算包
pip install numpy
# 安装biom包
pip install biom-format
# 安装biom2.0格式支持
pip install h5py
# 显示命令行
biom
更推荐,conda安装 python和r相应的操作包
相应bioconda包在 https://bioconda.github.io/recipes.html 查询名称和版本详细
# 安装Python包
conda install biom-format # 2.1.7
# 安装r的biom包
conda install r-biom
# 或安装r微生物组包,包括了r-biom
conda install bioconductor-microbiome
主要功能如下
sage: biom [OPTIONS] COMMAND [ARGS]...
ptions:
--version 版本Show the version and exit.
-h, --help 帮助Show this message and exit.
ommands:
add-metadata 添加元数据 Add metadata to a BIOM table.
convert 文本表格与biom互转 Convert to/from the BIOM table format.
from-uc 转换uc为biom Create a BIOM table from a vsearch/uclust/usearch BIOM...
head 跳过表头 Dump the first bit of a table.
normalize-table 标准化 Normalize a BIOM table.
show-install-info 提供安装信息 Provide information about the biom-format installation.
subset-table 提取子集 Subset a BIOM table.
summarize-table 统计摘要 Summarize sample or observation data in a BIOM table.
table-ids 转储 Dump IDs in a table.
validate-table 格式验证 Validate a BIOM-formatted file.
文件格式
http://biom-format.org/documentation/biom_format.html
BIOM目前分为1.0 JSON
和2.0 HDF5
两个版本;
1.0 JSON是编程语言广泛支持的格式,类似于散列的键值对结果。会根据数据松散程度,选择不同的存储结构来节省空间。
2.0 HDF5是二进制格式,被许多程序语言支持,读取更高效和节约空间。
小提示和常见问题
BIOM的目的是存储和处理大、松散的表;储存研究主要信息为单个文件;格式在不同软件间通用。
下面是OTU表常用存储的两种样式
紧密OTU表 A dense representation of an OTU table:
OTU ID PC.354 PC.355 PC.356
OTU0 0 0 4
OTU1 6 0 0
OTU2 1 0 7
OTU3 0 0 3