spark实现itemcf-附scala代码

BJUT赵亮

已于 2022-09-01 16:03:23 修改

阅读量2.1k

点赞数 6

分类专栏：算法及数据结构推荐系统 scala 文章标签： spark 大数据

于 2021-05-08 16:00:32 首次发布

本文链接：https://blog.csdn.net/qq_22235017/article/details/116529251

版权

本文探讨了在Spark上应用协同过滤（ItemCF）算法的详细过程，包括算法本质、cos距离计算方法以及具体操作步骤。通过计算用户对商品的评分向量之间的cos距离，寻找用户之间的相似性。感兴趣的读者可联系作者zhaoliang19960421@outlook.com获取更多详情。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

本文记录了在spark上协同过滤算法的相关内容，如果有做相关工作的同学，可以邮件与我联系 zhaoliang19960421@outlook.com

本文参考了spark协同过滤，在此表示感谢

协同过滤算法的本质是在全局范围内统计用户的行为，对每个行为进行打分记录，找到行为最相似的两人或者所有人的行为最相似的两个物品。具体的协同过滤的过程如下图所示
在这里插入图片描述
其中cos距离的计算方式如下图所示

具体的操作方式如下（以用户的协同过滤为例）：

在全局范围对，每个用户对每个商品进行打分（对于不同的行为可以给与不同的分值，代表不同的权重）
每一个用户用一个向量来表示，向量长度是商品个数，然后对于用户而言两两计算cos距离
1. 分母是每个向量的模长，每个用户的向量模长，依次计算即可
2. 在计算cos的分子时，当且仅当两个向量在对应位置上都有值时才有结果
3. 那么仅计算每个商品都有打分的商品即可，即对于每个用户而言，以商品为主键进行join，得到两两用户之间都有行为的商品，依次相乘求和后，即可得到cos的分子（做上三角取值，因为用户两两join会出现，AB、BA 两行数据）
4. 在获得两两用户之间的cos分子，分别join每个用户的向量模型，做除法得到两个用户之间的cos距离
得到的两个用户之间的距离的dataframe保存在hdfs中后续使用

package analysis.theme

import breeze.numerics.{
   pow, sqrt}
import conf.DateUtil.getFrontDay
import org.apache.spark.sql.{
   DataFrame, SaveMode, SparkSession}
import org.apache.spark.sql.expressions.UserDefinedFunction
import org.apache.spark.sql.functions._

/**
 * @author zhaoliang6@xiaomi.com on 20210506
 *         基于用户行为的协同过滤算法
 */
object UserItemCF {
   
    def main(args: Array[String]): Unit = {
   
        val spark: SparkSession = new SparkSession.Builder().appName(this.getClass.getSimpleName).getOrCreate()
        val Array(startDate: String, endDate: String, savePath: String) = args
        val userItemScoreDf = getUserItemScoreDf(spark, startDate, endDate)
        val itemCFDf = calcuate(spark, userItemScoreDf, Array("imei", "product_id", "score"), "item")
        itemCFDf.write.mode(SaveMode.Overwrite).save(savePath)
		val simItemDf = exp_itemCF(spark)
    }

    /**
    * 获得用户-商品-得分 矩阵，其中不同的动作获得得分不同
    */
    def Action2ScoreUDF(scoreMap: Map[String, Int]): UserDefinedFunction = udf((action: String) => scoreMap.getOrElse(action, 0))
    def getUserItemScoreDf(sparkSession: SparkSession, startDate: String, endDate: String): DataFrame = {
   
        val scoreMap: Map[String

最低0.47元/天解锁文章