ML:《Data-driven advice for applying machine learning to bioinformatics problems应用机器学习到生物信息学问题的数据驱动建议》翻译与解读
导读:本文通过比较13种流行的机器学习算法在165个公开分类数据集上的表现,旨在为生oinformatics领域的研究人员提供选择ML算法和调优参数的经验性推荐。
>> 背景痛点:生信领域研究人员在选择ML算法时会感到很难决定,需要一些经验性指导。
>> 解决方案:本研究对13种ML算法(如GBT、RF、SVM等)在165个生信分类数据集上的表现进行了全面测试和参数调优,获取每个算法在每个数据集上的最佳表现,并进行比较分析。
>> 核心结果:结果显示树式boosting算法如GBT表现最佳,而朴素贝叶斯算法表现不佳。参数调优可显著提升各算法效果。算法之间在不同数据集上效果存在差异。
>> 推荐方案:给出5种算法和参数设置,可覆盖16