隐语义模型(LFM)-----------电影推荐算法

  • 用隐语义模型来进行协同过滤的目标
    • 揭示隐藏的特征,这些特征能够解释为什么给出对应的预测评分
    • 这类特征可能是无法直接用语言解释描述的,事实上我们并不需要知道,类似“玄学”
  • 通过矩阵分解进行降维分析
    • 协同过滤算法非常依赖历史数据,而一般的推荐系统中,偏好数据又往往是稀疏的;这就需要对原始数据做降维处理
    • 分解之后的矩阵,就代表了用户和物品的隐藏特征
  • 隐语义模型的实例
    • 基于概率的隐语义分析(pLSA)
    • 隐式迪利克雷分布模型(LDA)
    • 矩阵因子分解模型(基于奇异值分解的模型,SVD)

LFM 降维方法 —— 矩阵因子分解

  • 假如用户物品评分矩阵为 R,现在有 m 个用户,n 个物品
  • 我们想要发现 k 个隐类,我们的任务就是找到两个矩阵 P 和 Q,使这两个矩阵的乘积近似等于 R,即将用户物品评分矩阵 R 分解成为两个低维矩阵相乘:
    R m × n ^ = P m × k T ⋅ Q k × k ≈ R \hat{R_{m\times n}} = P_{m\times k}^{T}\cdot Q_{k\times k} \approx R Rm×n^=Pm×kTQk×kR
    矩阵因子分解

LFM 的进一步理解

  • 我们可以认为,用户之所以给电影打出这样的分数,是有内在原因的,我们可以挖掘出影响用户打分的隐藏因素,进而根据未评价电影与这些隐藏因素的关联度,决定此未评价电影的预测评分
  • 应该有一些隐藏的因素,影响用户的打分,比如电影:演员、题材、年代… 甚至不一定是人直接可以理解的隐藏因子
  • 找到隐藏因子,可以对 user 和 item 进行关联(找到是由于什么使得 user 喜欢/不喜欢此 item,什么会决定 user 喜欢/不喜欢此 item),就可以推测用户是否会喜欢某一部未看过的电影
  • 对于用户看过的电影,会有相应的打分,但一个用户不可能看过所有电影,对于用户没有看过的电影是没有评分的,因此用户评分矩阵大部分项都是空的,是一个稀疏矩阵
    `
    Movie1 Movie2 Movie3 Movie4
    user1 1 2
    user2 5 1
    user3 2 0
    user4 4 2
    user5 1 2
    user6 3 5
    user7 5 1
    user8 1 0
    user9 2 3
`
  • 如果我们能够根据用户已有电影的打分推测出用户会给没有看过的电影的打分,那么就可以根据预测结果给用户推荐他可能打高分的电影

矩阵因子分解

  • 我们现在来做一个一般性的分析
  • 一个 m × n m\times n m×n 的打分矩阵 R 可以用两个小矩阵 P m × n P_{m\times n} Pm×n Q k × n Q_{k\times n} Qk×n 的乘积 R ^ \hat{R}
### 隐语 LFM 模型 Python 代码实现 隐语义模型(Latent Factor Model, LFM)通过引入潜在因子来表示用户和物品之间的关系,从而能够更好地捕捉数据中的隐藏模式。下面是一个基于矩阵分解方法的简单隐语义模型实现。 #### 数据准备 为了训练LFM模型,通常需要一个评分矩阵作为输入。这里假设有一个简单的用户-项目评分表: ```python import numpy as np from sklearn.metrics.pairwise import cosine_similarity ratings = { 'Alice': {'Item1': 5, 'Item2': 3}, 'Bob': {'Item1': 4, 'Item3': 2}, 'Charlie': {'Item2': 1, 'Item3': 5} } # 将字典转换成稀疏矩阵形式 users = list(ratings.keys()) items = set() for user in ratings.values(): items.update(user.keys()) n_users = len(users) n_items = len(items) item_indices = {item: i for i, item in enumerate(sorted(items))} user_indices = {user: i for i, user in enumerate(users)} rating_matrix = np.zeros((n_users, n_items)) for user, scores in ratings.items(): uid = user_indices[user] for item, score in scores.items(): rating_matrix[uid][item_indices[item]] = score ``` #### 训练LFM模型 接下来定并训练LFM模型函数,该过程涉及初始化随机权重向量P和Q,并利用梯度下降法更新这些参数直到收敛为止。 ```python def lfm_train(R, K=2, steps=5000, alpha=0.0002, beta=0.02): """ 使用显式反馈的数据集训练LFM模型 参数: R -- 用户-项目的评分矩阵 (m x n), m代表用户的数量,n代表商品的数量. K -- 主成分个数(即隐含特征维度). steps -- 迭代次数. alpha -- 学习速率. beta -- 正则项系数. 返回值: P,Q -- 分解后的两个低秩矩阵(m×K 和 K×n),它们相乘可以近似原始R矩阵. """ N = len(R) # Number of users M = len(R[0]) # Number of movies/items P = np.random.rand(N,K) Q = np.random.rand(M,K) for step in range(steps): eij_sum_square_error = 0 for u in range(len(R)): for i in range(len(R[u])): if R[u][i]>0: eui=R[u][i]-np.dot(P[u,:],Q[i,:].T) for k in range(K): P[u][k]=P[u][k]+alpha*(eui*Q[i][k]-beta*P[u][k]) Q[i][k]=Q[i][k]+alpha*(eui*P[u][k]-beta*Q[i][k]) eij_sum_square_error += pow(eui, 2) if eij_sum_square_error<0.001: break return P, Q.T ``` 此部分实现了基本版的LFM算法,在实际应用中可能还需要考虑更多因素如偏置项、时间衰减效应等以提高预测精度[^3]。 #### 应用LFM进行推荐 一旦获得了P和Q这两个矩阵之后就可以用来做个性化推荐了: ```python P, Qt = lfm_train(rating_matrix) predicted_ratings = np.dot(P,Qt) print("Predicted Ratings:\n", predicted_ratings) ``` 上述代码展示了如何构建一个基础版本的隐语义模型以及怎样运用它来进行电影或其他产品的推荐服务。当然这只是一个非常简化例子,在真实场景下还需加入更多的优化措施和技术细节处理。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值