创新实训(40)——基于Spark MLlib包的ALS推荐算法的设计

前言

之前学习了有关Spark MLlib包的api,现在基于ALS的推荐算法,结合系统中的实际进行一下设计。

流程设计

(1)还是利用之前设计的定时抽取用户浏览记录的脚本进行用户浏览数据的物化
(2)利用物化的csv数据,使用组织称JavaRDD的形式,然后解析成Dataset的形式,并且序列化之后,传入spark的分布式节点中,进行模型的训练,然后通过训练不断的调整参数。
(3)将训练好的模型保存到本地,预测时使用。
(4)对于所有的用户,使用模型进行推荐物品的预测,然后将每一个用户的预测结果存入redis之中,key为固定字符串+用户id,value为用“#”分割的物品的标签
(5)然后写一个新的推荐文章的方法,从redis中获取对应的文章标签,然后给用户推荐相应的文章。

可能遇到的问题

(1)Spark连接失败,我现在能想到的方法是,使用不同的spark的java api的版本,然后进行链接
(2)序列化问题,由于spark的数据是需要在不同的节点之间,通过网络进行传输的,所以可能会有序列化的问题,我们可以将数据转化成json格式,也可以在网络上传输。
(3)训练模型时,可能需要进行参数的调整,spark模型中,训练时有五个参数,需要进行调整,才能避免欠拟合或者过拟合的问题。

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值