AutoGluon学习笔记

贪钱算法还我头发

已于 2022-08-23 14:46:06 修改

阅读量1k

点赞数 1

分类专栏： # Deep Learning 文章标签： python 深度学习机器学习 Automl

于 2022-08-23 14:35:54 首次发布

本文链接：https://blog.csdn.net/keiven_/article/details/126482512

版权

Deep Learning 专栏收录该内容

45 篇文章 12 订阅

订阅专栏

捡起记Blog的习惯

学习视频链接跟李沐学AI

1. AutoGluon技术原理

Automl：自动对数据抽取特征并进行模型训练。大部分automl框架是基于超参数搜索技术。Autogluon则依赖于融合多个无需超参数搜索的模型。

AutoGluon技术：

stacking：在同一个数据上独立训练出不同的模型，然后对这些模型通过线性模型如进行加权求和得到最终输出
k-则交叉bagging：fit(..., num_bag_folds=3)指3则交叉bagging
多层stacking：将数据输出与原始数据整合再进行多次模型训练。fit(..., num_stack_levels=1, num_bag_folds=3)表示额外使用一层bagging，同时每个模型使用三则交叉bagging。

2. 安装、测试使用

在已有conda环境基础下terminal直接运行pip install autogluon
在这里插入图片描述

使用官网实例在jupyter上测试：
在这里插入图片描述

3. Kaggle Titanic实例

数据集获取（或者直接从官网下载）

# 安装数据集所需的包
pip install kaggle
# 下载数据集
kaggle c download titanic
unzip -o titanic.zip

首次使用需要配置kaggle秘钥配置方式

from autogluon.tabular import TabularDataset, TabularPredictor
# 训练
train_data = TabularDataset('train.csv')
id, label = 'PassengerId', 'Survived'
predictor = TabularPredictor(label=label).fit(train_data.drop(columns=[id]))

import pandas as pd
# 预测
test_data = TabularDataset('test.csv')
preds = predictor.predict(test_data.drop(columns=[id]))
submission = pd.DataFrame({id: test_data[id], label: preds})
submission.to_csv('submission.csv', index=False)

# 排名第5 cpu需训练2h
from autogluon.tabular import TabularDataset, TabularPredictor
import numpy as np
train_data = TabularDataset('train.csv')
id, label = 'Id', 'Sold Price'
# 数据预处理
large_val_cols = ['Lot', 'Total interior livable area', 'Tax assedssed value', 
                 'Annual tax amount', 'Listed Price', 'Last Sold Price']
for c in large_val_cols + [label]:
    train_data[c] = np.log(train_data[c] + 1)
    
predictor = TabularPredictor(label=label).fit(train_data.drop(columns=[id]))

# 排名第1 需要gpu训练
predictor = TabularPredictor(label=label).fit(
    train_data.drop(columns=[id]),
    hyperparameters='multimodal',
    num_stack_levels=1, num_bag_folds=5
)

4. 总结

Autogluon在合理的计算开销下得到模型效果还不错
虽然可以做特征自动抽取，但是加入一些人工数据预处理可以提升效果
比较大的数据集需要使用gpu或者多台机器进行分布式训练

贪钱算法还我头发

关注

1
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
AutoGluon学习笔记

Autogluon学习笔记Autogluon在合理的计算开销下得到模型效果还不错。虽然可以做特征自动抽取，但是加入一些人工数据预处理可以提升效果。比较大的数据集需要使用gpu或者多台机器进行分布式训练。
复制链接

扫一扫

专栏目录