r语言怎么把txt数据变成一个Rdata格式_BIOM:生物观测矩阵——微生物组数据通用数据格式...

本文介绍了BIOM格式在微生物组学中的重要性,包括其起源、特点和广泛的应用软件支持。内容涵盖BIOM文件的版本、存储结构,以及如何通过`biom`工具进行安装、格式转换、添加元数据和统计分析。此外,还提供了Python和R操作BIOM文件的简要说明。
摘要由CSDN通过智能技术生成

bcb2edca9d409ba654ebb10df02adcd9.png

简介

http://biom-format.org/

BIOM格式是微生物组领域最常用的结果保存格式,优点是可将OTU或Feature表、样本属性、物种信息等多个表保存于同一个文件中,且格式统一,体积更小巧,目前被微生物组领域几乎所有主流软件所支持:

  • QIIME

  • MG-RAST

  • PICRUSt

  • Mothur

  • phyloseq

  • MEGAN

  • VAMPS

  • metagenomeSeq

  • Phinch

  • RDP Classifier

  • USEARCH

  • PhyloToAST

  • EBI Metagenomics

  • GCModeller

  • MetaPhlAn 2

BIOM格式于2012年Rob Knight首发于我国GigaScience杂志上,被引242次。

The Biological Observation Matrix (or BIOM, canonically pronounced biome) 是微生物组分析的核心数据类型。

我们主要了解以下三方面的内容:

  1. BIOM文件格式的定义;

  2. biom命令对文件格式的转换、添加元数据、总结等;

  3. 使用Python和R操作BIOM文件

biom工具安装

常用的biom操作工具是一个python包,可通过pip、conda等安装

# 安装依赖关系科学计算包
pip install numpy
# 安装biom包
pip install biom-format
# 安装biom2.0格式支持
pip install h5py
# 显示命令行
biom

更推荐,conda安装 python和r相应的操作包

相应bioconda包在 https://bioconda.github.io/recipes.html 查询名称和版本详细

# 安装Python包
conda install biom-format # 2.1.7
# 安装r的biom包
conda install r-biom
# 或安装r微生物组包,包括了r-biom
conda install bioconductor-microbiome

主要功能如下

sage: biom [OPTIONS] COMMAND [ARGS]...

ptions:
--version   版本Show the version and exit.
-h, --help  帮助Show this message and exit.

ommands:
add-metadata       添加元数据 Add metadata to a BIOM table.
convert            文本表格与biom互转 Convert to/from the BIOM table format.
from-uc            转换uc为biom Create a BIOM table from a vsearch/uclust/usearch BIOM...
head               跳过表头 Dump the first bit of a table.
normalize-table    标准化 Normalize a BIOM table.
show-install-info  提供安装信息 Provide information about the biom-format installation.
subset-table       提取子集 Subset a BIOM table.
summarize-table    统计摘要 Summarize sample or observation data in a BIOM table.
table-ids          转储 Dump IDs in a table.
validate-table     格式验证 Validate a BIOM-formatted file.

文件格式

http://biom-format.org/documentation/biom_format.html

BIOM目前分为1.0 JSON2.0 HDF5两个版本;

1.0 JSON是编程语言广泛支持的格式,类似于散列的键值对结果。会根据数据松散程度,选择不同的存储结构来节省空间。

2.0 HDF5是二进制格式,被许多程序语言支持,读取更高效和节约空间。

小提示和常见问题

BIOM的目的是存储和处理大、松散的表;储存研究主要信息为单个文件;格式在不同软件间通用。

下面是OTU表常用存储的两种样式

紧密OTU表 A dense representation of an OTU table:

OTU ID PC.354  PC.355  PC.356
OTU0   0   0   4
OTU1   6   0   0
OTU2   1   0   7
OTU3   0   0   3
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值