探索机器学习的极限：Penn Machine Learning Benchmarks (PMLB)

舒璇辛Bertina

于 2024-09-07 09:05:13 发布

阅读量387

点赞数 3

本文链接：https://blog.csdn.net/gitblog_00230/article/details/141984163

版权

探索机器学习的极限：Penn Machine Learning Benchmarks (PMLB)

pmlbPMLB: A large, curated repository of benchmark datasets for evaluating supervised machine learning algorithms.项目地址:https://gitcode.com/gh_mirrors/pm/pmlb

在寻求优化和比较监督式机器学习算法的过程中，数据集的选择至关重要。Penn Machine Learning Benchmarks（PMLB） 应运而生，它是一个精心策划的大规模基准数据集集合，专为解决这一挑战而来。

项目介绍

PMLB库涵盖了广泛的应用场景，包括二分类与多分类问题、回归任务，以及类别型、顺序型和连续型特征的混合。通过访问其主页，用户能交互式浏览数据集概览、教程和贡献指南，全面掌控资源。

技术深度剖析

PMLB项目进行了重大更新至1.0版本，引入了新结构和数据集名称变更。为了确保数据集的高效存储和分发，采用了Git Large File Storage（LFS），这意味着用户需安装配置Git LFS来完整克隆仓库。数据统一采用标准格式，包含列名、目标列“target”，且以制表符分隔，压缩后存储，以节省空间。

PMLB还特别强调数据特征的分类，细化为二进制、分类和连续类型，这与pandas的属性相匹配，提供了一致性分析框架。

应用场景广泛

不论是机器学习研究者、算法工程师还是数据科学家，PMLB都是一站式的解决方案。它不仅适用于算法性能的快速评估，也适合于教学环境中展示不同模型间的比较，甚至在企业级应用中作为初步的数据探索和模型选择工具。

项目特点

便捷访问: 提供Python包pmlb，支持一键安装，通过简洁API即可获取数据。
广泛兼容: 覆盖多种类型的问题和特征，适合各种机器学习任务。
详尽文档: 全面的文档和丰富的示例代码，让新手到专家都能迅速上手。
持续更新: 社区驱动的贡献机制保证数据集的更新和丰富性。
科研支撑: 强烈建议学术发表时引用，以认可项目价值，遵循良好的科学实践。

如何使用？

只需一行命令安装pmlb包，接着，无论是快速查看数据集列表，还是进行复杂的算法对比实验，均易如反掌。以下是一个简短示例，展示了如何使用PMLB对两个经典分类器进行性能比较：

from pmlb import fetch_data, classification_dataset_names
from sklearn.linear_model import LogisticRegression
from sklearn.naive_bayes import GaussianNB
from sklearn.model_selection import train_test_split

# 简单的算法比较
logit_scores, gnb_scores = [], []
for dataset in classification_dataset_names[:10]:  # 示例仅取前10个数据集
    X, y = fetch_data(dataset, return_X_y=True)
    X_train, X_test, y_train, y_test = train_test_split(X, y)
    
    lr = LogisticRegression().fit(X_train, y_train)
    gnb = GaussianNB().fit(X_train, y_train)
    
    logit_scores.append(lr.score(X_test, y_test))
    gnb_scores.append(gnb.score(X_test, y_test))

# 结果可视化省略...