根据用户对品牌偏好打分训练ALS模型

lucky-zhao

于 2023-01-16 12:06:17 发布

阅读量291

点赞数

分类专栏：大数据文章标签：大数据 hadoop python 算法推荐算法

本文链接：https://blog.csdn.net/qq_41810183/article/details/128702714

版权

大数据专栏收录该内容

24 篇文章 1 订阅

订阅专栏

2.3 根据用户对品牌偏好打分训练ALS模型

from pyspark.sql.types import StructType, StructField, StringType, IntegerType

schema = StructType([
    StructField("userId", IntegerType()),
    StructField("brandId", IntegerType()),
    StructField("pv", IntegerType()),
    StructField("fav", IntegerType()),
    StructField("cart", IntegerType()),
    StructField("buy", IntegerType())
])
# 从hdfs加载预处理好的品牌的统计数据
brand_count_df = spark.read.csv("hdfs://localhost:8020/preprocessing_dataset/brand_count.csv", header=True, schema=schema)
# brand_count_df.show()
def process_row(r):
    # 处理每一行数据：r表示row对象
    
    # 偏好评分规则：
	#     m: 用户对应的行为次数
    #     该偏好权重比例，次数上限仅供参考，具体数值应根据产品业务场景权衡
	#     pv: if m<=20: score=0.2*m; else score=4
	#     fav: if m<=20: score=0.4*m; else score=8
	#     cart: if m<=20: score=0.6*m; else score=12
	#     buy: if m<=20: score=1*m; else score=20
    
    # 注意这里要全部设为浮点数，spark运算时对类型比较敏感，要保持数据类型都一致
	pv_count = r.pv if r.pv else 0.0
	fav_count = r.fav if r.fav else 0.0
	cart_count = r.cart if r.cart else 0.0
	buy_count = r.buy if r.buy else 0.0

	pv_score = 0.2*pv_count if pv_count<=20 else 4.0
	fav_score = 0.4*fav_count if fav_count<=20 else 8.0
	cart_score = 0.6*cart_count if cart_count<=20 else 12.0
	buy_score = 1.0*buy_count if buy_count<=20 else 20.0

	rating = pv_score + fav_score + cart_score + buy_score
	# 返回用户ID、品牌ID、用户对品牌的偏好打分
	return r.userId, r.brandId, rating
# 用户对品牌的打分数据
brand_rating_df = brand_count_df.rdd.map(process_row).toDF(["userId", "brandId", "rating"])
# brand_rating_df.show()

基于Spark的ALS隐因子模型进行CF评分预测
- ALS的意思是交替最小二乘法（Alternating Least Squares），是Spark中进行基于模型的协同过滤（model-based CF）的推荐系统算法，也是目前Spark内唯一一个推荐算法。
  
  同SVD，它也是一种矩阵分解技术，但理论上，ALS在海量数据的处理上要优于SVD。
  
  更多了解：pyspark.ml.recommendation.ALS
  
  注意：由于数据量巨大，因此这里不考虑基于内存的CF算法
  
  参考：为什么Spark中只有ALS
使用pyspark中的ALS矩阵分解方法实现CF评分预测

# 使用pyspark中的ALS矩阵分解方法实现CF评分预测
# 文档地址：https://spark.apache.org/docs/latest/api/python/pyspark.ml.html?highlight=vectors#module-pyspark.ml.recommendation
from pyspark.ml.recommendation import ALS

als = ALS(userCol='userId', itemCol='brandId', ratingCol='rating', checkpointInterval=2)
# 利用打分数据，训练ALS模型
# 此处训练时间较长
model = als.fit(brand_rating_df)
# model.recommendForAllUsers(N) 给用户推荐TOP-N个物品
model.recommendForAllUsers(3).show()
# 将模型进行存储
model.save("hdfs://localhost:9000/models/userBrandRatingModel.obj")
# 测试存储的模型
from pyspark.ml.recommendation import ALSModel
# 从hdfs加载模型
my_model = ALSModel.load("hdfs://localhost:9000/models/userBrandRatingModel.obj")
my_model
# model.recommendForAllUsers(N) 给用户推荐TOP-N个物品
my_model.recommendForAllUsers(3).first()

k.ml.recommendation
from pyspark.ml.recommendation import ALS

als = ALS(userCol=‘userId’, itemCol=‘brandId’, ratingCol=‘rating’, checkpointInterval=2)

利用打分数据，训练ALS模型

此处训练时间较长

model = als.fit(brand_rating_df)

model.recommendForAllUsers(N) 给用户推荐TOP-N个物品

model.recommendForAllUsers(3).show()

将模型进行存储

model.save(“hdfs://localhost:9000/models/userBrandRatingModel.obj”)

测试存储的模型

from pyspark.ml.recommendation import ALSModel

从hdfs加载模型

my_model = ALSModel.load(“hdfs://localhost:9000/models/userBrandRatingModel.obj”)
my_model

model.recommendForAllUsers(N) 给用户推荐TOP-N个物品

my_model.recommendForAllUsers(3).first()

lucky-zhao

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
根据用户对品牌偏好打分训练ALS模型

基于Spark的ALS隐因子模型进行CF评分预测ALS的意思是交替最小二乘法（Alternating Least Squares），是Spark中进行基于模型的协同过滤（model-based CF）的推荐系统算法，也是目前Spark内唯一一个推荐算法。同SVD，它也是一种矩阵分解技术，但理论上，ALS在海量数据的处理上要优于SVD。注意：由于数据量巨大，因此这里不考虑基于内存的CF算法使用pyspark中的ALS矩阵分解方法实现CF评分预测。
复制链接

扫一扫