推荐系统 3.20、3.21、3.22、3.23 学习笔记

3.20 晚上:

mqlog: 消息队列日志
AUC: 衡量的是序的指标
注意: 特征是类别型的,需要 ont-hot 编码
数据稀疏性是实际问题中不可避免的挑战

FM 因子分解机 笔记

FM 算法解析

应用场景: 点击预估
目的: 旨在解决稀疏数据下的特征组合问题

One-hot 导致样本数据的稀疏性和特征空间剧增
关联特征与 label 的正向相关性在实际问题中是普遍存在的

多项式模型是包含特征组合的最直观的模型, x i x_i xi x j x_j xj 都非零时,组合特征 x i x j x_ix_j xixj 才有意义

y ( X ) = ω 0 + ∑ i = 1 n ω i x i + ∑ i = 1 n − 1 ∑ j = i + 1 n ω i j x i x j ( 1 ) y(X)=\omega_0+\sum_{i=1}^{n}{\omega_ix_i}+\sum_{i=1}^{n-1}{\sum_{j=i+1}^{n}{\omega_{ij}x_ix_j}} (1) y(X)=ω0+i=1nωixi+i=1n1j=i+1nωijxixj(1)

单从模型表达能力上来看,FM 的表达能力是强于 LR 的
组合特征的参数一共有 n ( n − 1 ) 2 \frac{n(n-1)}{2} 2n(n1)

数据稀疏性普遍存在的实际应用场景中,二次项参数的训练是很困难的

矩阵分解: rating矩阵可以分解为user矩阵和item矩阵,每个user和item都可以采用一个隐向量表示

矩阵分解技术

推荐系统最终的目标就是对于任意一个用户,预测出所有未评分物品的分值,并按分值从高到低的顺序将对应的物品推荐给用户

对于特征值分解,由于其只能作用于方阵,因此并不适合分解评分矩阵这个场景

3.21 早上
矩阵分解技术

基于矩阵分解的推荐技术

R m × n ≈ P m × k × Q k × n = R ^ m × n Rm×n≈Pm×k×Qk×n=R̂ m×n Rm×nPm×k×Qk×n=R^m×n

其中,矩阵Pm×k表示的是m个用户与k个主题之间的关系,而矩阵Qk×n表示的是k个主题与n个商品之间的关系。

说到矩阵分解技术,首先想到的往往是特征值分解(eigendecomposition)与奇异值分解(Singular value decomposition,SVD)

对于特征值分解,由于其只能作用于方阵,因此并不适合分解评分矩阵这个场景

致命的缺陷——奇异值分解要求矩阵是稠密的

传统 SVD 在实际应用场景中面临着稀疏性问题和效率问题

对缺失值先进行简单的填充

Funk-SVD

主要思路是将原始评分矩阵M(mn)分解成两个矩阵P(mk)和Q(k*n),同时仅考察原始评分矩阵中有评分的项分解结果是否准确,而判别标准则是均方差。

隐语义模型(Latent factor model,LFM),其算法意义层面的解释为通过隐含特征(latent factor)将user兴趣与item特征联系起来。

libFM

libFM 学习感想

数据格式每行一个数值(分类结果 or 打分结果等),对应一组特征,每个非零特征都需要给出数值,零特征忽略

libFM 是把这个模型推广到了多类 feature 的情况

用户U对物品I最终的评分就是由各个隐含特征维度下U对I感兴趣程度的和,这里U对I的感兴趣程度则是由U对当前隐含特征的感兴趣程度乘上 I 与当前隐含特征相关程度来表示的

3.22 早上

基于隐语义模型的矩阵分解技术来进行讨论

注意到隐语义模型中,隐含特征与深度学习中的 embedding 实际上是一回事

特征值分解与奇异值分解

观看视频,复盘,反馈,很重要

3.23 早上

周六
崔立明

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值