python与Spark结合，PySpark的机器学习环境搭建和模型开发

最新推荐文章于 2024-07-29 14:01:21 发布

datayx

最新推荐文章于 2024-07-29 14:01:21 发布

阅读量1.4k

点赞数 1

原文链接：https://loveai.tech

版权

640?wx_fmt=gif

向AI转型的程序员都关注了这个号👇👇👇

机器学习AI算法工程公众号：datayx

Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架，Spark拥有Hadoop MapReduce所具有的优点；但不同MapReduce的是Job中间输出结果可以保存在内存中，从而不再需要读写HDFS，因此Spark能更好适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。

Spark提供了一个更快、更通用的数据处理平台。和Hadoop相比，Spark可以让你的程序在内存中运行时速度提升100倍，或者在磁盘上运行时速度提升10倍。去年，在100 TB Daytona GraySort比赛中，Spark战胜了Hadoop，它只使用了十分之一的机器，但运行速度提升了3倍。Spark也已经成为针对 PB 级别数据排序的最快的开源引擎。

Spark支持Scala、Java、Python、R等接口，本文均使用Python环境进行学习。

Spark在Windows下的环境搭建

https://blog.csdn.net/u011513853/article/details/52865076

https://www.jianshu.com/p/ede10338a932

pyspark官方文档http://spark.apache.org/docs/2.1.2/api/python/index.html

基于PySpark的模型开发

会员流失预测模型

通用模型开发流程

640?wx_fmt=png

需求沟通与问题确立

定义流失口径：比如，流失客户定义为最近一次购买日期距今的时间大于平均购买间期加3倍的标准差；非流失客户定义为波动比较小，购买频次比较稳定的客户

数据整合与特征工程

640?wx_fmt=png

模型开发与效果评估

640?wx_fmt=png

2）对于建立模型而言并非特征越多越好，建模的目标是使用尽量简单的模型去实现尽量好的效果。减少一些价值小贡献小的特征有利于在表现效果不变或降低很小的前提下，找到最简单的模型。

640?wx_fmt=png

使用卡方检验对特征与因变量进行独立性检验，如果独立性高就表示两者没太大关系，特征可以舍弃；如果独立性小，两者相关性高，则说明该特征会对应变量产生比较大的影响，应当选择。

640?wx_fmt=png

模型应用与迭代优化

640?wx_fmt=png

模型代码

640?wx_fmt=png

640?wx_fmt=png

地址 https://www.jianshu.com/p/5a5fc30a7a70

阅读过本文的人还看了以下：

不断更新资源

深度学习、机器学习、数据分析、python

搜索公众号添加： datayx

640?wx_fmt=jpeg

长按图片，识别二维码，点关注

AI项目体验

https://loveai.tech

640?wx_fmt=png

关注

1
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。