scikit-learn使用joblib持久化模型过程中的问题详解

最新推荐文章于 2024-04-14 22:45:45 发布

置顶金陵笑笑生

最新推荐文章于 2024-04-14 22:45:45 发布

阅读量1.4k

点赞数

分类专栏： Python 文章标签： joblib sklearn 持久化

本文链接：https://blog.csdn.net/C_tommy/article/details/83375942

版权

Python 专栏收录该内容

25 篇文章 0 订阅

订阅专栏

在机器学习过程中，一般用来训练模型的过程比较长，所以我们一般会将训练的模型进行保存（持久化），然后进行评估，预测等等，这样便可以节省大量的时间。

在模型持久化过程中，我们使用scikit-learn提供的joblib.dump()方法，但是在使用过程中会出现很多问题。如我们使用如下语句：

joblib.dump(clf,'../../data/model/randomforest.pkl')

此语句将产生大量的模型文件，如下图所示

然后，我们再使用joblib.load(‘../../data/model/randomforest.pkl’)进行加载，会出现如下错误：

Traceback (most recent call last):
  File "E:\workspace\forest\com\baihe\RandomForest_losing.py", line 65, in <module>
    clf = joblib.load('../../data/model/randomforest.pkl')
  File "D:\Program Files\python27\lib\site-packages\sklearn\externals\joblib\numpy_pickle.py", line 425, in load
    obj = unpickler.load()
  File "D:\Program Files\python27\lib\pickle.py", line 858, in load
    dispatch[key](self)
  File "D:\Program Files\python27\lib\site-packages\sklearn\externals\joblib\numpy_pickle.py", line 285, in load_build
    Unpickler.load_build(self)
  File "D:\Program Files\python27\lib\pickle.py", line 1217, in load_build
    setstate(state)
  File "_tree.pyx", line 2280, in sklearn.tree._tree.Tree.__setstate__ (sklearn\tree\_tree.c:18350)
ValueError: Did not recognise loaded array layout

正确使用joblib的方法是：设置dump中的compress参数，当设置参数时，模型持久化便会压缩成一个文件。源码中对compress参数的描述如下：

compress: integer for 0 to 9, optional
        Optional compression level for the data. 0 is no compression.
        Higher means more compression, but also slower read and
        write times. Using a value of 3 is often a good compromise.
        See the notes for more details.

以下是我们进行模型持久化的正确操作语句：

#save model
joblib.dump(clf,'../../data/model/randomforest.pkl',compress=3)
#load model to clf
clf = joblib.load('../../data/model/randomforest.pkl')

金陵笑笑生

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
scikit-learn使用joblib持久化模型过程中的问题详解

在机器学习过程中，一般用来训练模型的过程比较长，所以我们一般会将训练的模型进行保存（持久化），然后进行评估，预测等等，这样便可以节省大量的时间。在模型持久化过程中，我们使用scikit-learn提供的joblib.dump()方法，但是在使用过程中会出现很多问题。如我们使用如下语句：joblib.dump(clf,'../../data/model/randomforest.pkl')...
复制链接

扫一扫