PyTorch Tabular 项目下载及安装教程
1. 项目介绍
PyTorch Tabular 是一个旨在简化深度学习模型在表格数据上的应用和研究的框架。它基于 PyTorch 和 PyTorch Lightning,设计的核心原则包括低阻力可用性、易于定制、可扩展性和易于部署。该框架支持多种深度学习模型,如前馈网络、神经遗忘决策集成、TabNet、混合密度网络等,适用于分类和回归任务。
2. 项目下载位置
PyTorch Tabular 项目的源代码托管在 GitHub 上。你可以通过以下命令克隆项目到本地:
git clone https://github.com/manujosephv/pytorch_tabular.git
3. 项目安装环境配置
在安装 PyTorch Tabular 之前,你需要确保你的环境中已经安装了 PyTorch。推荐首先从 PyTorch 官方网站下载并安装适合你机器的 PyTorch 版本。
环境配置示例
以下是一个典型的环境配置示例:
- 操作系统: Ubuntu 20.04
- Python 版本: 3.8
- PyTorch 版本: 1.10.0
- CUDA 版本: 11.3
你可以使用以下命令安装 PyTorch:
pip install torch==1.10.0+cu113 torchvision==0.11.1+cu113 torchaudio==0.10.0+cu113 -f https://download.pytorch.org/whl/torch_stable.html
环境配置图片示例
4. 项目安装方式
在安装了 PyTorch 之后,你可以通过以下命令安装 PyTorch Tabular:
pip install -U "pytorch_tabular[extra]"
如果你只需要基本功能,可以使用以下命令:
pip install -U "pytorch_tabular"
5. 项目处理脚本
以下是一个简单的示例脚本,展示了如何使用 PyTorch Tabular 进行模型训练和评估:
from pytorch_tabular import TabularModel
from pytorch_tabular.models import CategoryEmbeddingModelConfig
from pytorch_tabular.config import (
DataConfig,
OptimizerConfig,
TrainerConfig,
ExperimentConfig,
)
# 数据配置
data_config = DataConfig(
target=["target"], # 目标列应始终为列表
continuous_cols=num_col_names,
categorical_cols=cat_col_names,
)
# 训练配置
trainer_config = TrainerConfig(
auto_lr_find=True, # 运行 LRFinder 自动推导学习率
batch_size=1024,
max_epochs=100,
)
# 优化器配置
optimizer_config = OptimizerConfig()
# 模型配置
model_config = CategoryEmbeddingModelConfig(
task="classification",
layers="1024-512-512", # 每层节点数
activation="LeakyReLU", # 每层之间的激活函数
learning_rate=1e-3,
)
# 创建 TabularModel 实例
tabular_model = TabularModel(
data_config=data_config,
model_config=model_config,
optimizer_config=optimizer_config,
trainer_config=trainer_config,
)
# 训练模型
tabular_model.fit(train=train, validation=val)
# 评估模型
result = tabular_model.evaluate(test)
# 预测
pred_df = tabular_model.predict(test)
# 保存模型
tabular_model.save_model("examples/basic")
# 加载模型
loaded_model = TabularModel.load_model("examples/basic")
通过以上步骤,你可以成功下载、安装并使用 PyTorch Tabular 进行表格数据的深度学习任务。