海量数据处理--使用sklearn进行增量学习

最新推荐文章于 2024-09-08 08:37:57 发布

jin_tmac

最新推荐文章于 2024-09-08 08:37:57 发布

阅读量548

点赞数 1

分类专栏：机器学习与数据挖掘文章标签：人工智能机器学习

原文链接：https://blog.csdn.net/whiterbear/article/details/53120004

版权

机器学习与数据挖掘专栏收录该内容

27 篇文章 1 订阅

订阅专栏

转载来自：https://blog.csdn.net/whiterbear/article/details/53120004

问题

实际处理和解决机器学习问题过程中，我们会遇到一些“大数据”问题，比如有上百万条数据，上千上万维特征，此时数据存储已经达到10G这种级别。这种情况下，如果还是直接使用传统的方式肯定行不通，比如当你想把数据load到内存中转成numpy数组，你会发现要么创建不了那么大的numpy矩阵，要么直接加载时报MemeryError。
在这种情况下我了解了几种选择办法，

对数据进行降维，
使用流式或类似流式处理，
上大机器，高内存的，或者用spark集群

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

jin_tmac CSDN认证博客专家 CSDN认证企业博客

码龄7年

46: 原创

7万+: 周排名

48万+: 总排名

20万+: 访问

: 等级

1878: 积分

105: 粉丝

167: 获赞

36: 评论

581: 收藏

私信

关注

分类专栏

最新评论

xgboost的特征重要性feature_importance计算
CSDN-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)提升标题与正文的相关性；(2)增加条理清晰的目录。
Python模型上线pmml以及自定义函数转换（1）
Sarah_N: 您好，有个问题想咨询下，我看您文章里用的是pmml4.3,但是我看官方文档pmml4.3版本里的内置函数并没有ln1p，那转换后的pmml文件还可以正常预测吗？
Python模型上线pmml以及自定义函数转换（1）
dili_zsh: 学到了，感谢大神
Python模型上线pmml以及自定义函数转换（1）
jin_tmac: 在定义mapper的时候，原本应该这样写： mapper = DataFrameMapper([ (["PB_PerInfo_Sp_MarSta"], ExpressionTransformer("0.137414 if pandas.isnull(X[0]) else (-0.116105 if X[0]=='单身' or X[0]=='已婚' else 0.137414 )"),{"alias":"W_PB_PerInfo_Sp_MarSta"}), ])，但是转pmml文件会报错，这时候你把中文随便改成英文，然后notepad打开，找到这个变量位置，将英文改成中文就可以
Python模型上线pmml以及自定义函数转换（1）
dili_zsh: 中文字符用英文替代是在哪步呢？能说详细点么，感恩

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。