开源项目推荐:regenie基因组回归建模工具
1. 项目基础介绍与主要编程语言
regenie
是一个由 Regeneron Genetics Center 开发并用 C++ 编写的开源项目,它专门用于基因组范围内的关联研究(GWAS)的回归建模。该程序支持处理大规模的基因组数据,特别适用于定量、二分类和时间至事件特征的回归分析。
2. 项目核心功能
regenie
的核心功能包括:
- 多种特征处理:可以处理定量特征、二分类特征以及时间至事件特征。
- 处理群体结构和相关性:能够有效地处理样本间的群体结构和相关性。
- 多表型处理:能够高效地处理多个表型。
- 高效计算:程序设计考虑了计算效率和内存使用,使其成为处理大规模数据集的理想选择。
- 多种统计测试:支持Firth逻辑回归和SPA测试用于二分类特征,Firth回归用于时间至事件特征。同时可以进行基因/区域测试、交互作用测试和条件分析。
- 数据格式支持:支持BGEN、PLINK bed/bim/fam以及PLINK2 pgen/pvar/psam等遗传数据格式。
3. 项目最近更新的功能
regenie
的最近更新主要包括以下功能:
- 时间至事件分析的新选项:增加了
--t2e
和--eventColList
选项,用于指定时间至事件分析及事件表型名称。 - Firth模型拟合算法改进:当使用
--write-null-firth
时,改进了算法,使其更接近步骤2中使用的方法。 - 罕见变异的Firth测试改进:修复了当测试超罕见变异(MAC小于50)时近似Firth测试的bug,并提高了收敛速度。
- LOVO和SKAT/ACAT测试改进:改进了LOVO算法的效率和内存使用,同时修复了SKAT/ACAT测试中的多个bug。
- 其他多项bug修复和功能改进:包括对回归算法的优化、内存使用的优化、处理特定输入文件的bug修复等。
regenie
的持续更新和发展为基因组学研究提供了强大的工具,使得研究人员能够更高效地分析和解释大型基因组关联数据。