pyspark中使用categoricalFeaturesInfo来标记分类型变量

本文以pyspark随机森林为例,介绍了如何使用categoricalFeaturesInfo参数来处理分类型变量。categoricalFeaturesInfo是一个字典,用于指定每个分类型特征的位置及其类别数量。在训练模型前,需确保数据已进行码值编码,与categoricalFeaturesInfo保持一致。
摘要由CSDN通过智能技术生成

以使用pyspark的随机森林作为例子:

#! /usr/bin/python3
#-*-coding:utf-8-*-

from pyspark import SparkContext,SparkConf
from pyspark.mllib.regression import LabeledPoint
from pyspark.mllib.classification import LogisticRegressionWithLBFGS
from pyspark.mllib.tree import RandomForest
from pyspark.sql import SQLContext

# Configuration if you use spark-submit 
conf = SparkConf().setAppName("Test Application")
conf = conf.setMaster("local[10]")
sc = SparkContext(conf=conf)
sqlCtx = SQLContext(sc)

def create_label_point(line):
    line=line.strip().split(',')
    return LabeledPoint(int(line[-1]), [float(x) 
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值