基于pyspark的随机森林

Drgom

已于 2022-01-19 16:05:58 修改

阅读量1.1k

点赞数

分类专栏： python 数据挖掘文章标签：随机森林机器学习

于 2021-12-29 23:07:54 首次发布

本文链接：https://blog.csdn.net/qq_43662627/article/details/122226633

版权

本文探讨了如何利用PySpark库来实现随机森林算法，详细介绍了在机器学习中这一强大的分类和回归工具的应用。

摘要由CSDN通过智能技术生成

关于随机森林的定义就不赘叙，有兴趣可以看这篇文章

import findspark
from numpy import frompyfunc
from pyspark.ml import classification
from pyspark.sql.functions import spark_partition_id
findspark.init()
from pyspark.sql import SparkSession
spark = SparkSession.builder.appName('test1').getOrCreate()
df = spark.read.csv('D:/PythonCode/Python_dataming/pythons/.vscode/机器学习/affairs.csv',inferSchema=True,header=True)
print(df.count())
print(df.printSchema())
from pyspark.ml.feature import VectorAssembler
df_ass=VectorAssembler(inputCols=['rate_marriage','age','yrs_married','children','religious'],outputCol='features')
df