pyspark合并两个dataframe_手把手教你用PySpark构建机器学习模型

本文介绍了如何使用PySpark进行数据预处理,包括安装PySpark、探索数据并进行统计摘要。接着,通过实例展示了如何合并两个DataFrame,并构建随机森林分类器、决策树和逻辑回归模型。最后,对这些模型进行了评估,梯度增强树模型表现出80.13%的准确率。
摘要由CSDN通过智能技术生成
0f36c11580496a83a6dd07f0cebdabec.png 大数据  /  人工智能  /  区块链  / 数据库 / 热点 39ebe1afb19bcf114acf002aa35028de.png Harun Ur Rashid是一位自学成才的数据科学家,他展示了利用简洁的代码一步一步创建了三种算法的机器学习模型的过程,非常适用于机器学习算法爱好者。中兴数据智能为您翻译如下。   1639fe9b736ff2381757713774447ab7.png Harun Ur Rashid | 撰文

数智君 | 翻译

  Spark是实现集群计算的引擎,而PySpark是一个使用Spark的Python库。 PySpark是一种适用于执行大规模探索性数据分析、构建机器学习管道、为数据平台创建ETL的出色语言。如果你对Python以及诸如Pandas这样的库很熟悉,那么PySpark语言可以很好地帮助你创建更多可扩展的分析和管道。 本文展示了如何使用PySpark创建一个机器学习模型。   d8c67e79c10b24007995a3cabcd341c4.png

安装PySpark

和很多Python包(例如Pandas、Numpy、scikit-learn等)一样,PySpark的安装十分简单。 重要的一点是,必须确保你的电脑已经安装了Java,这样你就可以在Jupiter Notebook上运行PySpark了。   d8c67e79c10b24007995a3cabcd341c4.png

探索数据

本文中用Python创建的机器学习模型,均使用同一个数据集。这个数据集来自美国国家糖尿病与消化与肾病研究所,分类目标是预测病人是否得了糖尿病(是/否)。数据集可以从Kaggle上下载: https://www.kaggle.com/uciml/pima-indians-diabetes-database
from pyspark.sql import SparkSessionspark = SparkSession.builder.appName('ml-diabetes').getOrCreate()df = spark.read.csv('diabetes.csv', header = True, inferSchema = True)df.printSchema()
数据集由几个医学预测变量和一个目标变量(即结果)组成。预测变量包括怀孕次数、BMI(译者注:Body Mass Index,身体质量指数)、胰岛素水平、年龄等等。 输入变量: Glucose(血糖)、BloodPressure(血压)、
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值