大数据Spark MLlib基于模型的协同过滤

最新推荐文章于 2024-08-29 12:39:49 发布

赵广陆

最新推荐文章于 2024-08-29 12:39:49 发布

阅读量928

收藏 7

点赞数 1

分类专栏： spark 文章标签： big data spark mllib

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-NC-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/ZGL_cyy/article/details/120946124

版权

spark 专栏收录该内容

41 篇文章 6 订阅

订阅专栏

目录

1 简介
2 隐语义模型（LFM）
3 LFM 降维方法 —— 矩阵因子分解
- 3.1 矩阵因子分解
- 3.2 矩阵因子分解计算
4 LFM 的进一步理解
- 4.1 矩阵因子分解
5 模型的求解 —— 损失函数

1 简介

请添加图片描述

在大数据Spark MLlib推荐算法这篇文章中涉及到拆分,至于为什么拆分没有详解接下来写一下如何来构建模型.

基于模型的协同过滤推荐，就是基于样本的用户偏好信息，训练一个推荐模型,然后根据实时的用户喜好的信息进行预测新物品的得分，计算推荐
基于近邻的推荐和基于模型的推荐

基于近邻的推荐是在预测时直接使用已有的用户偏好数据，通过近邻数据来预测对新物品的偏好
（类似分类）
而基于模型的方法，是要使用这些偏好数据来训练模型，找到内在规律，再用模型来做预测（类
似回归）
■ 训练模型时，可以基于标签内容来提取物品特征，也可以让模型去发掘物品的
潜在特征；这样的模型被称为隐语义模型 (Latent Factor Model, LFM）

请添加图片描述

2 隐语义模型（LFM）

用隐语义模型来进行协同过滤的目标

揭示隐藏的特征，这些特征能够解释为什么给出对应的预测评分
这类特征可能是无法直接用语言解释描述的，事实上我们并不需要知道，类似“玄学”

通过矩阵分解进行降维分析

协同过滤算法非常依赖历史数据，而一般的推荐系统中，偏好数据又往往是稀疏的；这就需要
对原始数据做降维处理
分解之后的矩阵，就代表了用户和物品的隐藏特征

隐语义模型的实例

基于概率的隐语义分析（pLSA）
隐式迪利克雷分布模型（LDA）
矩阵因子分解模型（基于奇异值分解的模型，SVD）

3 LFM 降维方法 —— 矩阵因子分解

假设用户物品评分矩阵为 R, 现在有 m 个用户， n 个物品
我们想要发现 k 个隐类，我们的任务就是找到两个矩阵 P 和 Q, 使这两个矩阵的乘积
近似等于 R, 即将用户物品评分矩阵 R 分解成为两个低维矩阵相乘：

3.1 矩阵因子分解

在这里插入图片描述

3.2 矩阵因子分解计算

在这里插入图片描述

4 LFM 的进一步理解

我们可以认为，用户之所以给电影打出这样的分数，是有内在原因的，我们可以挖掘出影响用户打分的隐藏因素，进而根据未评分电影与这些隐藏因素的关联度，决定此未评分电影的预测评分
应该有一些隐藏的因素，影响用户的打分，比如电影：演员、题材、年代…甚至不一定是人直接可以理解的隐藏因子找到隐藏因子，可以对 user 和 item 进行关联（找到是由于什么使得 user 喜欢/不喜欢此 item, 什么会决定 user 喜欢/不喜欢此 item） , 就可以推测用户是否会喜欢某一部未看过的电影

对于用户看过的电影，会有相应的打分，但一个用户不可能看过所有电影，对于用户没有看过的电影是没有评分的，因此用户评分矩阵大部分项都是空的，是一个稀疏矩阵

在这里插入图片描述

4.1 矩阵因子分解

在这里插入图片描述

5 模型的求解 —— 损失函数

在这里插入图片描述

赵广陆

关注

1
点赞
踩
7

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

赵广陆

CSDN认证博客专家 CSDN认证企业博客

码龄8年

Java领域优质创作者

1414: 原创

1016: 周排名

902: 总排名

237万+: 访问

: 等级

2万+: 积分

15万+: 粉丝

3724: 获赞

358: 评论

1万+: 收藏

私信

关注

热门文章

分类专栏

architect 付费 117篇
project 98篇
design 22篇
springsecurity 15篇
deeplearning 25篇
python 20篇
arithmetic 10篇
bigdata 17篇
cloudnative 24篇
vue 20篇
mongodb 2篇
netty 16篇
clickhouse 8篇
tidb 7篇
pmp 16篇
hudi 6篇
machinelearning 48篇
front 45篇
hadoop 20篇
hbase 12篇
jvm 8篇
flink 25篇
spark 41篇
scala 11篇
etl 16篇
hive 37篇
java 196篇
linux 27篇
javaee 40篇
git 4篇
ssmtrain 15篇
javawebtrain 24篇
springcloud 22篇
springmvc 7篇
hystrix 10篇
zookeeper 8篇
dubbo 22篇
tool 62篇
kafka 22篇
mysql 40篇
redis 21篇
javainterview 21篇
elasticsearch 26篇
mybatis 24篇
springboot 9篇
spring 32篇
experience 45篇
maven 17篇
javaexamination 4篇
nginx 11篇

最新评论

SprinBoot+Vue漫画天堂网的设计与实现
CSDN-Ada助手: 恭喜你这篇博客进入【CSDN月度精选】榜单，全部的排名请看 https://bbs.csdn.net/topics/619396448。
SprinBoot+Vue漫画天堂网的设计与实现
CSDN-Ada助手: 恭喜你这篇博客进入【CSDN月度精选】榜单，全部的排名请看 https://bbs.csdn.net/topics/619394139。
SprinBoot+Vue漫画天堂网的设计与实现
CSDN-Ada助手: 恭喜你这篇博客进入【CSDN月度精选】榜单，全部的排名请看 https://bbs.csdn.net/topics/619391594。
SprinBoot+Vue漫画天堂网的设计与实现
CSDN-Ada助手: 恭喜你这篇博客进入【CSDN月度精选】榜单，全部的排名请看 https://bbs.csdn.net/topics/619389643。
PMP项目管理项目资源管理
阿J~: 学到了，一起加油。欢迎回赞哦！

最新文章

2024

10月 1篇

09月 87篇

08月 14篇

02月 2篇

01月 2篇

2023年254篇

2022年202篇

2021年397篇

2020年455篇

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

赵广陆 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

打赏作者

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。

余额充值