Spark机器学习入门实例——大数据集(30+g)二分类

本教程通过使用Spark和Scala,展示如何处理超过内存的数据集进行逻辑回归分类。使用34.6GB的StackOverflow数据集创建一个二分类模型,目标是根据文章标题和内容预测标签。教程涵盖了数据预处理、Spark设置、模型训练和测试。通过简化问题,只针对特定标签进行二分类,而不是多标签分类。
摘要由CSDN通过智能技术生成

Spark机器学习入门实例——大数据集(30+g)二分类

本篇教程将引领大家,通过使用spark的机器学习性能和 Scala ,练习一个基于超出内存可加载范围的数据集的逻辑回归分类器(即LR分类器)。

假如你想创建一个机器学习模型,但却发现你的输入数据集与你的计算机内存不相符?对于多机器的计算集群环境中通常可以使用如Hadoop和Apache Spark分布式计算工具。然而,Apache Spark能够在本地机器独立模式上,甚至在当输入数据集大于你的计算机内存时通过创建模型处理你的数据。

 

在这篇文章里,通过使用一个34.6千兆字节的输入数据集创建一个二进制分类模型,为您展现一个Apache Spark的端对端脚本。

可以在您的计算机上运行进行测试。

Spark机器学习入门实例——大数据集(30+g)二分类

1.输入数据和预期结果

在上一篇文章我们讨论了“How To Find Simple And Interesting Multi-Gigabytes Data Set”,本文将使用上文中提及数据集的Posts.xml文件。文件大小是34.6千兆字节,这个xml文件包含stackoverflow.com文章数据作为xml属性:

  • 标题 – 文章标题

  • 主体 – 文章文本

  • 标签 – 文章的标签列表

  • 10+ 更多的xml -我们不需要使用的属性

关于stackoverflow.com的Posts.xml完整数据集信息请点击:https://archive.org/details/stackexchange.

另外我创建一个较小版本的这种文件,里面只有10个条目或文章。此文件包含一个小尺寸的原始数据集,这个数据是被知识共享许可批准的。

如你所料,这个小文件并不是模型训练的最好的选择(这个小模型训练文件并不是最好的选择),这个文件仅适用于实验数据准备代码。然而,本文中的端对端Spark脚本也适用于这个小文件,文件下载请点击这里。

我们的目标是创建一个可基于主体和标题预测文章标签的预测模型。为了精简任务和减少代码数量,我们将联接标题和主体并作为一个单独的文本列。已经为大家精心准备了大数据的系统学习资料,从Linux-Hadoop-spark-......,需要的小伙伴可以点击

可想而知,这个模型在stackoverflow.com网站上是怎样工作的——用户键入一个问题,网站自动给予标签建议。

假设我们需要尽可能多的正确的标签,并且用户将消除不必要的标签。由于这个假设我们将选择撤销作为我们的模型高优先级目标。

2.二进制和多标签分类

栈溢出标记预测问题属于多标签分类的一种但并不唯一&#

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值