大数据
/
人工智能
/
区块链
/ 数据库 / 热点
Harun Ur Rashid是一位自学成才的数据科学家,他展示了利用简洁的代码一步一步创建了三种算法的机器学习模型的过程,非常适用于机器学习算法爱好者。中兴数据智能为您翻译如下。
Harun Ur Rashid | 撰文
数智君 | 翻译
Spark是实现集群计算的引擎,而PySpark是一个使用Spark的Python库。 PySpark是一种适用于执行大规模探索性数据分析、构建机器学习管道、为数据平台创建ETL的出色语言。如果你对Python以及诸如Pandas这样的库很熟悉,那么PySpark语言可以很好地帮助你创建更多可扩展的分析和管道。 本文展示了如何使用PySpark创建一个机器学习模型。安装PySpark
和很多Python包(例如Pandas、Numpy、scikit-learn等)一样,PySpark的安装十分简单。 重要的一点是,必须确保你的电脑已经安装了Java,这样你就可以在Jupiter Notebook上运行PySpark了。探索数据
本文中用Python创建的机器学习模型,均使用同一个数据集。这个数据集来自美国国家糖尿病与消化与肾病研究所,分类目标是预测病人是否得了糖尿病(是/否)。数据集可以从Kaggle上下载: https://www.kaggle.com/uciml/pima-indians-diabetes-databasefrom pyspark.sql import SparkSessionspark = SparkSession.builder.appName('ml-diabetes').getOrCreate()df = spark.read.csv('diabetes.csv', header = True, inferSchema = True)df.printSchema()
数据集由几个医学预测变量和一个目标变量(即结果)组成。预测变量包括怀孕次数、BMI(译者注:Body Mass Index,身体质量指数)、胰岛素水平、年龄等等。
输入变量: Glucose(血糖)、BloodPressure(血压)、