前言
之前学习了有关Spark MLlib包的api,现在基于ALS的推荐算法,结合系统中的实际进行一下设计。
流程设计
(1)还是利用之前设计的定时抽取用户浏览记录的脚本进行用户浏览数据的物化
(2)利用物化的csv数据,使用组织称JavaRDD的形式,然后解析成Dataset的形式,并且序列化之后,传入spark的分布式节点中,进行模型的训练,然后通过训练不断的调整参数。
(3)将训练好的模型保存到本地,预测时使用。
(4)对于所有的用户,使用模型进行推荐物品的预测,然后将每一个用户的预测结果存入redis之中,key为固定字符串+用户id,value为用“#”分割的物品的标签
(5)然后写一个新的推荐文章的方法,从redis中获取对应的文章标签,然后给用户推荐相应的文章。
可能遇到的问题
(1)Spark连接失败,我现在能想到的方法是,使用不同的spark的java api的版本,然后进行链接
(2)序列化问题,由于spark的数据是需要在不同的节点之间,通过网络进行传输的,所以可能会有序列化的问题,我们可以将数据转化成json格式,也可以在网络上传输。
(3)训练模型时,可能需要进行参数的调整,spark模型中,训练时有五个参数,需要进行调整,才能避免欠拟合或者过拟合的问题。