使用Pyspark将pandas.Dataframe转为LabeledPoint

本文介绍了如何将pandas DataFrame转换为Pyspark的LabeledPoint,以便在Spark中进行机器学习模型训练。首先,通过Pandas读取数据,然后转换为Spark DataFrame,最后使用map和rdd操作将DataFrame转换为LabeledPoint,注意标签和特征的处理。
摘要由CSDN通过智能技术生成

使用Pyspark将pandas.Dataframe转为LabeledPoint

本人刚刚开始学习pyspark,由于之前只在单机中进行过数据处理,习惯利用python中的pandas进行数据预处理,但是在pyspark中,模型训练时只支持LabeledPoint数据,所以使用pandas的Dataframe处理完数据以后需要将其转化为LabeledPoint,在此过程中查询了许多博文,看了stackflow的解决方法,在此总结一下。

标注点(LabeledPoint)

标注点LabeledPoint是一种带有标签(Label/Response)的本地向量,它可以是稠密或者是稀疏的。在MLlib中,标注点在监督学习算法中被使用。由于标签是用双精度浮点型来存储的,故标注点类型在回归(Regression)和分类(Classification)问题上均可使用。例如,对于二分类问题,则正样本的标签为1,负样本的标签为0,而对于多类别的分类问题来说,标签则应是一个以0开始的索引序列:0, 1, 2 …

spark官方文档链接

参数

  • label — 数据集的label
  • features — 数据集
  • 1
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值