pyspark构建简单模型(RandomForest&LogisticRegression)

最新推荐文章于 2024-07-31 15:08:57 发布

诗蕊

最新推荐文章于 2024-07-31 15:08:57 发布

阅读量4.3k

点赞数 2

分类专栏：机器学习 Spark

本文链接：https://blog.csdn.net/Katherine_hsr/article/details/80988994

版权

本文详细介绍了如何用pyspark进行数据处理，包括读取数据、转换为模型输入格式、划分训练集和测试集，并分别使用LogisticRegression和RandomForest进行模型训练及预测。

摘要由CSDN通过智能技术生成

本文记录了用pyspark构建一个简单的模型的过程。

1. 读取数据集

from pyspark.sql import SparkSession
from pyspark.ml.feature import StringIndexer
from pyspark.ml.classification import LogisticRegression
from pyspark.ml import Pipeline
from pyspark.ml.feature import VectorAssembler
from pyspark.ml.evaluation import BinaryClassificationEvaluator
from pyspark import SparkContext, SparkConf

conf = SparkConf().setAppName("Spark_mllearn_example").setMaster("local")
sc = SparkContext(conf=conf)
spark = SparkSession.builder.master("local").appName("Spark_mllearn_example").config("", "").getOrCreate()

dpath = '/Users/huoshirui/Desktop/Spark/'
df = spark.read.csv(dpath + 'spark_mllearn_test.csv', header=True)

数据集如下图：
这里写图片描述

2. 将数据集转换成可以用于模型使用的features/label的形式

df = df.withColumn('c2', df['c2'].cast('double'))\
       .withColumn('c3', df['c3'

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

诗蕊

关注关注

2
点赞
踩
18

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

Logistic-Regression-Random-Forest-Gradient-Boosting

03-29

介绍该分类项目的目的是预测一个人是否会提出索赔。包括Logistic回归，Random Forest和XGBoost在内的多个模型的多重排列均未产生明显的结果，因此，我们必须得出结论，数据不是可预测的。最初，迭代是在使用sklearn的SMOTE来对少数族裔目标类进行升采样和使用python的.resample() （分别是各个笔记本的标题）之间进行划分的。可以在“ Results_Snapshot.xlsx”文件中查看每个模型得分的快照。 XGBoost上的网格搜索产生了最佳结果。但是，我们确实获得了有用和多余功能的见识，并且可以开始将精力集中在为这些功能收集更多数据上。我们还可以识别新的数据点并进行特征工程，以生成可预测的数据集并充满信心地回答我们的问题。

pyspark模型训练

qq_19072921的博客

03-30

3131

1、pyspark启动正常情况pyspark shell的启动成功后的界面： [admin@datacenter4 ~]$ pyspark Python 2.7.5 (default, Nov 16 2020, 22:23:17) [GCC 4.8.5 20150623 (Red Hat 4.8.5-44)] on linux2 Type "help", "copyright", "credits" or "license" for more information. Welcome to ...

参与评论您还未登录，请先登录后发表或查看评论

PySpark分类模型简明教程

最新发布

chendengyi2的博客

07-31

827

Spark集群是一种分布式计算框架，它基于内存计算，提供了高效的数据抽象和并行计算能力，能够处理大规模数据集的批处理和实时处理任务。Spark采用内存存储中间计算结果，可减少迭代运算的磁盘I/O，并通过并行计算有向无环图的优化，使其运行速度比MapReduce快100倍；Spark可以使用Hadoop YARN和Apache Mesos作为其资源管理和调度器，可以从多种数据源读取数据，如HDFS、HBase、MySQL等。

pyspark-Logisticregression

Gerry-wu

05-15

3264

pyspark mllib中提供的Logisticregression做分类，即逻辑回归模型，原理不多讲，代码也懒的上，官网例子很清楚了http://spark.apache.org/docs/latest/mllib-linear-methods.html#classification 看python的选项就好再详细的可以参考API，或者直接看scala源码： http://spark.apac

PySpark 实现Logistic Regression模型

机器会学习的博客

04-24

5381

Logistic Regression Although it is used for classification, it’s still called logistic regression .This is due to the linear regression equations still operate to find the relationship between input v...

pyspark建模流程

he_wen_jie的博客

07-28

628

首先是启动spark from pyspark.sql import SparkSession spark = SparkSession.builder.appName("pyspark_example").enableHiveSupport().getOrCreate() 然后使用spark读取sql或者csv，查看一下特征的名称 data_raw = spark.sql("""select * from t_user""") data_raw.columns 然后开始对特征进行处理，第一步就是去除我

PySpark大数据处理及机器学习Spark2.3视频教程

11-09

例如，你可以使用Logistic Regression进行二分类问题，用Random Forest或Gradient Boosted Trees处理分类和回归任务，用K-Means进行数据聚类，或者用PCA进行特征降维。此外，MLlib还支持管道（Pipelines）来构建复杂...

PySpark 机器学习、自然语言处理与推荐系统配套代码+数据集.zip

09-03

例如，使用LogisticRegression进行二元分类，RandomForest处理分类和回归问题，KMeans进行非监督学习的聚类分析。这些模型可以处理大规模数据，且支持管道API，便于构建和优化模型流水线。 2. 自然语言处理（NLP）...

特征工程关键步骤：如何巧妙构建最佳机器学习模型？

[特征工程关键步骤：如何巧妙构建最佳机器学习模型？](https://img-blog.csdnimg.cn/img_convert/099a8815bee84dd763e2d431796b2f11.png) # 1. 特征工程的理论基础在数据科学中，特征工程是模型构建不可或缺的环节...

机器学习：利用Spark MLlib实现分布式机器学习算法训练与预测。

程序员光剑

10-10

942

近年来，随着云计算、大数据、人工智能等技术的不断发展，基于大规模数据处理的机器学习算法也在迅速发展壮大。机器学习（Machine Learning）是一门融合了统计、模式识别、计算机科学、数据挖掘等多领域知识而成的交叉学科，其目的是利用已知的数据，对未知的数据进行预测、分类、聚类、降维等任务，从而提高计算机程序的学习能力，改善自身的决策能力，解决实际问题。随着数据的量级、复杂度和多样性的增加，传统的单机内存机器学习算法已经无法应付如此庞大的海量数据集。

Pyspark分类--LogisticRegression

weixin_46408961的博客

03-11

3636

LogisticRegression：逻辑回归分类 class pyspark.ml.classification.LogisticRegression(featuresCol=‘features’, labelCol=‘label’, predictionCol=‘prediction’, maxIter=100, regParam=0.0, elasticNetParam=0.0, tol=1e-06, fitIntercept=True, threshold=0.5, thresholds=None,

pyspark-ml学习笔记：LogisticRegression

MachineLP的专栏

07-19

1375

具体查看下面代码及其注释：数据可以查看github：https://github.com/MachineLP/Spark-/tree/master/pyspark-ml import os import sys #下面这些目录都是你自己机器的Spark安装目录和Java安装目录 os.environ['SPARK_HOME'] = "/Users/***/spark-2.4.3-b...

pyspark之LogisticRegression算法

pyswt的博客

12-17

711

import sys import time import pandas as pd import matplotlib.pyplot as plt from pyspark import SparkConf,SparkContext from pyspark.mllib.classification import LogisticRegressionWithSGD from pyspark.ml...

pyspark 中算法和模型的运用

u013904032的博客

02-26

757

pyspark 中算法和模型的运用LogisticRegression和LogisticRegressionModel的区别 LogisticRegression和LogisticRegressionModel的区别 LogisticRegression用于引入平台的逻辑回归模型，在建模时需要设置对应的参数值，在模型训练好后，可以利用save(modelPath) 对训练好的模型进行保存，tips(在保存模型时，需要确保保存的路径下没有改名称的文件，如果之前就有导出，则需要删除或者用overwrite()函

Pyspark分类--RandomForestClassifier

weixin_46408961的博客

03-11

1170

RandomForestClassifier class pyspark.ml.classification.RandomForestClassifier(featuresCol=‘features’, labelCol=‘label’, predictionCol=‘prediction’, probabilityCol=‘probability’, rawPredictionCol=‘rawPrediction’, maxDepth=5, maxBins=32, minInstancesPerNode=

pyspark分类算法之逻辑回归模型实践【binomialLogisticRegression+multinomialLogisticRegression】

Together_CZ的博客

06-12

3405

最近在使用pyspark来进行spark编程，之前对这个没有了解过，所以接下来需要多花点时间学习这个模块了，今天主要是简单地基于官方给出来实例来实践一下逻辑回归分类模型，pyspark提供的逻辑回归分类模型主要包括：二项逻辑回归和多项逻辑回归，各自有对应的适用场景。 pyspark顾名思义就是由python和spark组合使用的。Spark提供了一个Python_Shell，...

pyspark-ml学习笔记：模型评估

MachineLP的专栏

08-21

2977

问题是这样的，如果我们想基于pyspark开发一个分布式机器训练平台，那么肯定需要对模型进行评估，而pyspark本身自带模型评估的api很少，想进行扩展的话有几种方案：（1）使用udf自行编写代码进行扩展。（2）使用现有的，像sklearn中的api。（不同框架的之间的切换往往需要转换数据结构）例子如下所示： ''' 模型评估模块： · pyspark api · sklearn...

pyspark 大数据机器学习入门【逻辑斯蒂回归分类器 & 决策树分类器】

nefu_ljw的博客

01-24

1323

零、概念 DataFrame：使用Spark SQL中的DataFrame作为数据集，它可以容纳各种数据类型。较之RDD，DataFrame包含了schema 信息，更类似传统数据库中的二维表格。它被ML Pipeline用来存储源数据。例如，DataFrame中的列可以是存储的文本、特征向量、真实标签和预测的标签等。 Transformer：翻译成转换器，是一种可以将一个DataFrame转换为另一个DataFrame的算法。比如一个模型就是一个Transformer。

logisticregression模型

06-07

逻辑回归(Logistic Regression)是一种常见的分类算法，用于将数据分为两个或多个类别。其基本思想是利用sigmoid函数将线性回归的结果映射到[0,1]之间，然后根据阈值来判断属于哪个类别。LogisticRegression模型可以用于二分类和多分类任务，其主要优点是计算简单、易于理解和实现。在sklearn中，可以通过调用LogisticRegression类来创建逻辑回归模型。该模型可以使用不同的优化算法来最小化损失函数，如标准的梯度下降法、L-BFGS优化算法等。可以使用fit()方法拟合训练数据，使用predict()方法进行预测，使用score()方法计算模型的准确率等指标。同时，LogisticRegression模型也支持L1和L2正则化，以避免过拟合问题。