在线算法外存学习处理大数据集

最新推荐文章于 2024-08-08 08:04:51 发布

修炼之路

最新推荐文章于 2024-08-08 08:04:51 发布

阅读量1.4k

点赞数

分类专栏：机器学习 scikit-learn修炼之路 python机器学习实战文章标签：在线算法外存学习 HashingVectorizer SGDClassifier

本文链接：https://blog.csdn.net/sinat_29957455/article/details/79967001

版权

python机器学习实战同时被 3 个专栏收录

43 篇文章 835 订阅 ¥9.90 ¥99.00

订阅专栏

超级会员免费看

机器学习

57 篇文章 21 订阅

订阅专栏

scikit-learn修炼之路

22 篇文章 3 订阅

订阅专栏

本文探讨如何使用在线算法和外存学习处理大数据集，特别是针对50000条电影评论。通过使用SGDClassifier的partial_fit函数和HashingVectorizer，避免了将所有数据加载到内存中，显著降低了训练时间，只需1分钟即可完成。虽然这可能导致模型准确率下降，但在资源消耗和训练速度之间进行了权衡。

摘要由CSDN通过智能技术生成

在上一篇文章中，使用了logistic回归来对电影评论进行分类，消耗了2到3个小时，在使用网格搜索对50000条电影评论构建特征向量的时候计算成本是非常大的。在实际应用中，可能会遇见更大的数据集，如果直接把数据集加载到内存中，可能会超出计算机的最大内存，同时也会需要更久的训练时间。在这篇文章中，将介绍外存学习来处理大数据集，使用外存学习来处理50000条电影评论只需要1分钟。

在梯度下降算法中，我们有学习过随机梯度下降和批量梯度下降，每次通过一个或批量的训练数据来更新权重。而，外存学习与批量梯度下降的思想是一致的。使用sklearn的SGDClassifier的partial_fit函数来训练从本地磁盘读取的批量数据，来构建模型。

1、导入相关包

import numpy as np
import re
from nltk.corpus import stopwords
stop = stopwords.words("english")
from sklearn.feature_extraction.text import HashingVectorizer
from