pyspark中使用categoricalFeaturesInfo来标记分类型变量

最新推荐文章于 2024-07-31 15:08:57 发布

老胡当道卧

最新推荐文章于 2024-07-31 15:08:57 发布

阅读量2.8k

点赞数 1

文章标签： spark

本文链接：https://blog.csdn.net/sinat_27339001/article/details/52640220

版权

本文以pyspark随机森林为例，介绍了如何使用categoricalFeaturesInfo参数来处理分类型变量。categoricalFeaturesInfo是一个字典，用于指定每个分类型特征的位置及其类别数量。在训练模型前，需确保数据已进行码值编码，与categoricalFeaturesInfo保持一致。

摘要由CSDN通过智能技术生成

以使用pyspark的随机森林作为例子：

#! /usr/bin/python3
#-*-coding:utf-8-*-

from pyspark import SparkContext,SparkConf
from pyspark.mllib.regression import LabeledPoint
from pyspark.mllib.classification import LogisticRegressionWithLBFGS
from pyspark.mllib.tree import RandomForest
from pyspark.sql import SQLContext

# Configuration if you use spark-submit 
conf = SparkConf().setAppName("Test Application")
conf = conf.setMaster("local[10]")
sc = SparkContext(conf=conf)
sqlCtx = SQLContext(sc)

def create_label_point(line):
    line=line.strip().split(',')
    return LabeledPoint(int(line[-1]), [float(x)