![](https://img-blog.csdnimg.cn/803f7f43a1b747b3a34df0b1c6f47997.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
手把手带你玩转Spark机器学习
文章平均质量分 96
本专栏主要关注Spark机器学习的实际应用,因为会简要介绍机器学习算法的一些理论知识,但是会把重心放在Spark机器学习的技术实践上来。考虑到目前学术界和工业界普遍使用Spark python进行编程,本专栏将通过示例程序和样例代码,举例说明如何借助Spark来搭建一个完展的机器学习系统。
Roaring Kitty
阿里巴巴达摩院、字节跳动供应链算法专家,量化交易爱好者,You Only Live Once!,技术交流:AllenYZXL
展开
-
手把手带你玩转Spark机器学习-深度学习在Spark上的应用
本文将介绍深度学习在Spark上的应用,我们将聚焦于深度学习Pipelines库,并讲解使用DL Pipelines的方式。我们将讲解如何通过Pipelines实现Transfer Learning,同时通过预训练模型实现来处理少量数据并实现预测。本文主要介绍深度学习在Spark上的应用,以花卉图片为例,使用 Deep Learning Pipelines,并讲解使用DL Pipelines的方式。原创 2022-10-26 11:39:37 · 4000 阅读 · 3 评论 -
手把手带你玩转Spark机器学习-使用Spark进行文本处理
在本篇博客中,我们将跟大家分享NLP任务,即主题建模在大数据中的应用。主题建模是一种用于数据建模的统计方法,有助于发现文档集合中存在的基础主题。尽管 Spark NLP 是用于各种 NLP 任务的出色库,但它们没有提供主题建模管道。因此,我想介绍如何使用 PySpark 和 Spark NLP 实现主题建模。............原创 2022-08-14 10:29:56 · 2531 阅读 · 3 评论 -
手把手带你玩转Spark机器学习-使用Spark进行数据降维
本章,我们将继续讲解无监督学习模型中降低数据维度的方法。不同于我们之前分享的回归、分类和聚类,降维方法并不是用来做模型预测的。降维方法从一个D维的数据输入提取出k维表示,k一般远远小于D。因此,降维方法本身是一种预处理方法,或者说是一种特征转换的方法,而不是模型预测的方法。降维方法中尤为重要的是,被抽取出的维度表示应该仍能捕捉大部分的原始数据的变化和结构。............原创 2022-06-23 14:34:10 · 1334 阅读 · 13 评论 -
手把手带你玩转Spark机器学习-使用Spark构建聚类模型
本文以Covid-19新冠肺炎的公开数据为例,为大家演示如何在Spark上进行空缺值处理、异常检测、去除重复项等预处理操作。同时为了直观了解过去一段时间内新冠肺炎病例演变情况,我们还引入geopandas来画一个比较酷炫的全球新冠肺炎地理热图,并通过coding将png图像转换成一个动态图片gif,最后我们讲解了K-means在新冠肺炎数据上的实际应用,并针对最终的聚类结果作出相应的解释及分析。.....................原创 2022-06-17 11:39:26 · 2890 阅读 · 10 评论 -
手把手带你玩转Spark机器学习-使用Spark构建回归模型
我们选择[Bike Sharing数据](http://archive.ics.uci.edu/ml/machine-learning-databases/00275/)来做实验,预测共享单车的需求。我们将深入挖掘数据并应用GBDT决策树来进行预测。最后我们使用CrossValidator, ParamGridBuilder对每个回归器进行参数调整来找到最佳超参数。同时,在文章末尾,我们还对模型性能调优提出了几点建议。............原创 2022-05-29 00:04:43 · 2222 阅读 · 23 评论 -
手把手带你玩转Spark机器学习-使用Spark构建分类模型
本文,我们将介绍如何利用Spark构建分类模型。我们会介绍分类模型【逻辑回归、随机森林、梯度决策树】的基础知识以及如何通过Spark MLib来使用这些模型。分类通常通常是指将事物分成不同的类别。以上就是今天本文所要分享的内容,借助泰坦尼克号乘客数据,我们通过三个机器学习算法来预测乘客是否幸存。并详细讲解了如何通过Pyspark对数据进行分析、清洗、异常值填充、特征工程以及参数搜索模型调优,最后我们还分析比较了随机森林和梯度提升决策树的异同,以及介绍了一些性能评估指标及可视化的方法。.........原创 2022-05-10 15:15:07 · 4281 阅读 · 17 评论 -
手把手带你玩转Spark机器学习-使用Spark进行数据处理和数据转换
本文首先介绍了几种常见公开数据集,然后以加州住房数据集为例,分别介绍了如何利用Spark进行数据的下载、读取、探索分析、预处理、标准化等操作,最后简单总结了下不同类型的数据如何进行处理并转换成特征向量以供模型训练的方法。...............原创 2022-05-04 13:11:10 · 5634 阅读 · 11 评论 -
手把手带你玩转Spark机器学习-Spark的安装及使用
本文首先介绍了Spark的基础知识以及RDD和DataFrame这些核心概念,然后演示了如何下载Spark二进制版本并搭建一个本地单机模式下的开发环境,最后通过Python语言来编写第一个Spark程序。原创 2022-05-02 21:06:35 · 7221 阅读 · 1 评论 -
手把手带你玩转Spark机器学习-问题汇总[持续更新]
前言主要记录在实战过程中遇到的各种问题及解决方法。问题问题1:mml.Lightgbm进行fit操作的过程中TypeError: ‘JavaPackage’ object is not callable解决方法:这类问题一般都是在spark-submit或者spark config阶段未指定正确jar导致的,所有只要在submit或者config里面添加lightgbm对应的jar包即可:--jars hdfs://yourpath/mmlspark_2.11-0.18.1.jar,原创 2022-05-01 22:29:42 · 3512 阅读 · 6 评论 -
手把手带你玩转Spark机器学习-专栏介绍
目前国内关于Spark机器学习实战的优质资料比较欠缺,很多文章抄来抄去,写的不清不楚,随着Spark技术生态的成熟,很多公司都把它作为大数据处理的框架,但是在实际应用中,难免遇到很多的坑。作者从多年实际工作经验出发,参考多方面的资料,编写这个实战性质的专栏,希望能够给即将使用到或者正在使用Spark进行机器学习的同学一些帮助。............原创 2022-05-01 15:54:26 · 3983 阅读 · 8 评论