【机器学习】推荐一个好用的开源automl工具

AutoX

AutoX是第四范式开源的针对表数据的自动机器学习工具。

主要功能包括两点: 

一、提供全流程的自动机器学习pipeline;

二、用户可以把它的某一个某功能单独拿出来,作为生产力工具,完成机器学习中的某一个环节,例如,自动特征筛选、自动调参等。

项目地址

Github地址:

https://github.com/4paradigm/autox

效果对比

选取的数据包含分类/回归/时间序列预测、单表/多表,AutoX在大多数的数据上,效果都由于其他产品。

0061ae3b0c9b86132351b47003e85331.png

不同任务下的效果对比:

3b45a22d1407788025ea2e8420e5f7b8.png

AutoX技术方案

AutoX的整体技术方案包含了机器学习的全流程,我们在每一个流程都做了打磨和优化。废话不多说,直接上图。

8ef7699bd0918eece2cc47ddd2e0b4b5.png

数据预处理

数据预处理模块包含了异常值处理,缺失值填充,自动类型推断,内存优化。

自动拼表

表关系的识别和自动拼表,这一步让autox具有了处理多表数据的能力。

特征工程

特征工程这一块也是我们效果优于其他产品的关键点。

特征构造方面,主要是通过对比赛、行业数据的top方案的总结和抽象,设计出一系列关键特征。

特征选择方面,包括两块,一个是常规的特征选择模型,另一方面是通过mate特征的方式来实现特征的抽象聚合。

模型选择

模型选择采用了主流的树模型和nn模型。

模型调参

基于贝叶斯的调参,也使用了目前较优秀的第三方库optuna。

模型融合

包含bagging和stacking策略。

模型可解释方法

autox也实现了一些优秀的模型可解释方法。包括全局代理模型、局部代理模型、影响力样本、代表性样本和非代表性样本。

 
 
 
 
 
 
 
 
 
 
往期精彩回顾




适合初学者入门人工智能的路线及资料下载机器学习及深度学习笔记等资料打印机器学习在线手册深度学习笔记专辑《统计学习方法》的代码复现专辑
AI基础下载黄海广老师《机器学习课程》视频课黄海广老师《机器学习课程》711页完整版课件

本站qq群955171419,加入微信群请扫码:

052a27f547ac7b60db3ced7430821a0a.png

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值