作者:东哥起飞
微信公众号:Python数据科学
学习数据科学很久了,从数据探索、数据预处理、数据模型搭建和部署这些过程一直有些重复性的工作比较浪费时间,尤其当你有个新的想法想要快速尝试下效果的时候,效率很低。
东哥最近发现一个开源的Python机器学习库,名字叫PyCaret
,这个轮子正好可以为了解决我刚才所描述的困扰,它的特点是以low-code
低代码量来快速解决从数据预处理到模型部署的整个流程。
用了一下感觉确实有点香,因此也和大家分享一下。
PyCaret是什么?
PyCaret
是一个将我们常用到的机器学习库进行封装了的轮子。
常用的都有啥呢?
比如pandas
,numpy
做数据处理的,matplotlib
,seaborn
数据可视化的,sklearn
,xgboost
,catboost
,lightgbm
等各种模型的,总共有30个。在安装PyCaret
的时候会附带着一起都安装上。
封装这么多库干什么用?
PyCaret依赖了这么多的神库肯定是要搞事情啊。没错,机器学习中的一些操作步骤都可在PyCaret
自动开发的pipeline
中进行复现。在 Pycaret 中所执行的所有操作均按顺序存储在 Pipeline 中,该 Pipeline 针对模型部署进行了完全配置。
PyCaret就像是把所有都安排好了一样,我们按照它定义的函数使用就可以了。不管是填充缺失值、转换类别数据、执行特征工程设计,还是调参,Pycaret 都能够自动执行。 所以才可以实现用几行代码搞定从预处理到模型部署的整个流程。
而且pipeline
可以保存为二进制文件格式,支持在不同环境中进行迁移。
PyCaret支持的模型算法
PyCaret
支持6个模块,有监督
和无监督
模型的训练和部署,分别有分类、回归、聚类、异常检测、自然语言处理和关联规则挖掘。
PyCaret安装
pip install pycaret
老样子,命令行pip install
皆可安装。
为了防止安装的这些依赖可能与之前你已安装过的发生冲突,建议可以创建个Python的虚拟环境安装PyCaret以减少不必要的麻烦,比如用python3 virtualenv
或者conda
。就拿conda
为例吧。
#创建一个新的虚拟环境
conda create --name yourenvname python=3.7
#激活
conda activate yourenvname
#安装
pip install pycaret</