spark机器学习训练模型示例(一)

本文详细介绍了如何使用Spark的MLlib库中的逻辑回归模型,从数据预处理到构建训练集和测试集,以及模型的训练和预测过程。通过实例展示了如何对文本进行分词、特征转换,并最终进行预测,适合初学者理解机器学习在文本分类中的应用。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

利用逻辑回归建立模型,建立训练集和测试集
from pyspark.ml import Pipeline
from pyspark.ml.classification import LogisticRegression
from pyspark.ml.feature import HashingTF, Tokenizer
 
# 从(id, text, label)元祖列表得到一个训练样本(DataFrame).
training = spark.createDataFrame([
    (0, "a b c d e spark", 1.0),
    (1, "b d", 0.0),
    (2, "spark f g h", 1.0),
    (3, "hadoop mapreduce", 0.0)
], ["id", "text", "label"])
 
# 配置 ML pipeline,包含三个阶段: tokenizer, hashingTF, 和 lr.
tokenizer = Tokenizer(inputCol="text", outputCol="words")
hashingTF = HashingTF(inputCol=tokenizer.getOutputCol(), outputCol="features")
lr = LogisticRegression(maxIter=10, regParam=0.001)
pipeline = Pipeline(stages=[tokenizer, hashingTF, lr])
#现在构建的Pipeline本质上是一个Estimator,在它的fit()方法运行之后,它将产生一个PipelineModel,#它是一个Transformer。
 
 
# 使用训练样本建立模型.
model = pipeline.fit(training)
 
# 构建测试数据.
test = spark.createDataFrame([
    (4, "spark i j k"),
    (5, "l m n"),
    (6, "spark hadoop spark"),
    (7, "apache hadoop")
], ["id", "text"])
 
# 调用之前训练好的PipelineModel的transform()方法,让测试数据按顺序通过拟合的工作流,生成预测结
#果
prediction = model.transform(test)
selected = prediction.select("id", "text", "probability", "prediction")
for row in selected.collect():
    rid, text, prob, prediction = row
    print("(%d, %s) --> prob=%s, prediction=%f" % (rid, text, str(prob), prediction))
#(4, spark i j k) --> prob=[0.1596407738787475,0.8403592261212525], #prediction=1.000000
#(5, l m n) --> prob=[0.8378325685476744,0.16216743145232562], prediction=0.000000
#(6, spark hadoop spark) --> prob=[0.06926633132976037,0.9307336686702395], #prediction=1.000000
#(7, apache hadoop) --> prob=[0.9821575333444218,0.01784246665557808],
#prediction=0.000000
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值