初学者入门-用Spark ML来处理超大数据

本文介绍如何使用Spark ML在单机上处理超出内存的大数据,以建立预测帖子标签的模型。通过组合帖子标题和内容进行预测,并强调在StackOverflow等平台中recall作为评估指标的重要性。数据来源为stackexchange的posts.xml,通过Scala实现,环境配置包括Spark 1.5.2和Hadoop 2.6,最终将代码打包为jar在spark-submit中运行。
摘要由CSDN通过智能技术生成

还是转译KDNuggets的文章。微软的Dmitry Petrov介绍的如何用Spark ML来处理超过内存大小的数据。原文的 Link

这里侧重的是数据的大小远远超过单机的内存大小。原来这样的分析都是要用分布式的系统(比如hadoop)上来实现,而这篇文章里介绍的是单机如何通过Spark来实现分析。不过自己做了很多的migration,所以就算是原创啦。

本文所要介绍的案例的目的是要建立一个预测模型来基于帖子的标题和内容来预测一个帖子的标签(Tag)。处于简化代码的目的,文章里会把这两field组合成一个文字列来处理,而不是分别处理。(译者注:很明显,标题里的文字对于预测标签的权重应该更大,所以现实工作中,我们应该是分别对待这两个列)。

很容易理解这个预测模型对于stackoverflow.com这样的网站的价值。用户输入一个问题,网站会自动的给出标签的建议。假定我们需要尽可能多的正确的标签,这样用户可以删掉那些不相关的标签。基于这样的假定,我们就可以使用recall来作为检验模型好坏的最重要的依据了。


首先是要找这样的一个数据,文章里用的是在aXive上的stackflow的posts.xml文件,链接是https://archive.org/details/stackexchange同时作者也提供了一个小文件来给大家做练习,链接在https://www.dropbox.com/s/n2skgloqoadpa30/Posts.small.xml?dl=0,(需要注意的是,是国内访问不了这两个网站,所以我把第二个小文件放到云盘里面供下载,地址:http://pan.baidu.com/s/1jGJFtQI,链接。第一个文件需要大家自己

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值