MLLib之LogisticRegression

MLlib 线性回归

1. 数据输入:

case_data.txt

1,1 1
1,1.1 0.9
1,1 1.2
2,10 11
2,9 10
2,10 12
3,50 52
3,49 50
3,48 49

from pyspark.mllib.linalg import Vectors
from pyspark.mllib.regression import LabeledPoint

def parseLine(line):
parts = line.split(',')
label = float(parts[0])
print(parts[1])
print(parts[1].split(' '))
features = Vectors.dense([float(x) for x in parts[1].split(' ')])
return LabeledPoint(label, features)

df = sc.textFile(dataPath).map(parseLine)

2. 训练模型:

def logisticRegression(df,arguments):
"""
Only supports binary classification
"""
from pyspark.mllib.classification import LogisticRegressionWithSGD
maxIter = 100
if arguments.maxIter != None:
maxIter = float(arguments.maxIter)
lrModel = LogisticRegressionWithSGD.train(df,iterations=maxIter)
return lrModel

modelPath = arguments.modelPath
model.save(sc, modelPath)

3. 预测输入数据

data=Vectors.dense([float(x) for x in dataSet.split(',')])

预测:

from pyspark.mllib.classification import LogisticRegressionModel
model = LogisticRegressionModel.load(sc,modelPath)

prediction = model.predict(data)


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值