PheWeb 项目使用指南
1. 项目介绍
PheWeb 是一个用于构建网站以浏览数百或数千个全基因组关联研究(GWAS)结果的工具。它旨在帮助研究人员轻松地可视化和探索大规模的遗传关联数据。PheWeb 提供了丰富的功能,包括数据加载、处理、可视化以及网站部署等,使得用户能够快速构建一个功能齐全的 GWAS 数据浏览平台。
2. 项目快速启动
2.1 安装 PheWeb
首先,确保你已经安装了 Python 3。然后,通过 pip 安装 PheWeb:
pip3 install pheweb
如果安装过程中遇到问题,可以参考详细的安装说明。
2.2 创建数据目录和配置文件
创建一个新的目录来存储你的数据,并进入该目录:
mkdir ~/my-new-pheweb && cd ~/my-new-pheweb
在该目录下创建一个 config.py
文件,并设置必要的配置参数。例如,设置参考基因组版本:
hg_build_number = 38
2.3 检查 GWAS 数据文件
确保你的 GWAS 数据文件符合 PheWeb 的要求。每个表型需要一个文件,文件格式可以是常见的 GWAS 文件格式(如 tab、space 或 comma 分隔)。文件需要包含以下列:
- 染色体 (
chrom
) - 位置 (
pos
) - 参考等位基因 (
ref
) - 替代等位基因 (
alt
) - p 值 (
pval
)
2.4 创建表型列表
在数据目录中创建一个名为 pheno-list.json
的文件,列出所有的表型及其关联文件路径:
[
{
"assoc_files": ["/home/peter/data/ear-length.gz"],
"phenocode": "ear-length"
},
{
"assoc_files": ["/home/peter/data/a1c_X.gz", "/home/peter/data/a1c_autosomal.gz"],
"phenocode": "A1C"
}
]
2.5 加载关联文件
运行以下命令加载关联文件:
pheweb process
2.6 启动网站
最后,启动 PheWeb 网站:
pheweb serve --open
该命令会启动一个本地服务器,并在浏览器中打开你的 PheWeb 网站。
3. 应用案例和最佳实践
PheWeb 已被广泛应用于多个大规模 GWAS 数据集的可视化和探索。例如,UK Biobank 和 TOPMed 项目都使用了 PheWeb 来展示其数据。通过 PheWeb,研究人员可以快速发现和分析遗传关联,从而加速科学发现。
4. 典型生态项目
PheWeb 作为一个开源项目,与其他遗传学和数据科学工具紧密集成。例如,它可以与 VEP(Variant Effect Predictor)工具结合,提供更丰富的注释信息。此外,PheWeb 还支持与 Apache2 或 Nginx 等 Web 服务器集成,以便在生产环境中部署。
通过这些集成,PheWeb 不仅能够提供强大的数据可视化功能,还能与其他工具协同工作,构建一个完整的遗传数据分析生态系统。