推荐系统:基于内容的推荐算法

基于内容的推荐算法

  • 基于物品信息

  • 概念图在这里插入图片描述

概念

  • 定义:( C o n t e n t − b a s e d   R e c o m m e n d a t i o n s ( C B ) Content-based\space Recommendations(CB) Contentbased Recommendations(CB)) 根据推荐物品或则内容数据,发现物品的相关性,再基于用户过去的喜爱记录,为用户推荐相似的物品

  • 通过提取物品内在或则外在的特征值,实现 相似度计算

  • 用户个人文本信息的特征物品的特征 相匹配,即可得到用户对物品的喜爱程度

相似度计算

  • 采用:余弦相似度

  • 公式: s i m i l a r i t y = c o s ( θ ) = A B ∣ ∣ A ∣ ∣ ∣ ∣ B ∣ ∣ similarity = cos(\theta) = \frac{A B}{||A||||B||} similarity=cos(θ)=ABAB

  • 如图:

在这里插入图片描述

用户个人文本信息的特征提取

  • 分词、语义处理和情感处理 ( N L P NLP NLP)
  • 潜在语义分析 ( L S A LSA LSA)

物品特征的提取:

  • 专家标签 ( P G C PGC PGC)
  • 用户自定义标签 ( U G C UGC UGC)
  • 降维分析数据、提取隐语义标签 ( L F M LFM LFM)

基于内容推荐系统的高层次结构

  • 概念图

在这里插入图片描述

特征工程

  • 以房屋是否售出为例

在这里插入图片描述

  • 特征 ( f e a t u r e feature feature) :数据中抽取出来的对结果预测有用的信息
  • 特征的个数即数据的观测维度
  • 特征工程最用:从专业背景知识和技巧处理数据,使得特征能够在机器学习算法上发挥更好作用的过程
  • 特征工程包括:特征清洗 (采样、清洗异常样本),特征处理和特征选择
  • 特征按照不同的数据类型 (离散型和连续型) 有不同的特征处理方法
    • 数值型
    • 类别型
    • 时间型
    • 统计型

数值型

  • 定义:连续型数值表示当前维度,通常会对数值特征进行数学上的处理,主要做法是 归一化离散化

  • 归一化:特征之间应该是平等的,区别应当体现在特征内部;有些特征数值特别大而有些特征数值特别小,会因为本身的幅值差异造成机器学习效果不佳

    • 公式: f e a t u r e n e w = f e a t u r e o l d f e a t u r e m a x − f e a t u r e m i n feature_{new} = \frac{feature_{old}}{feature_{max}-feature_{min}} featurenew=
  • 2
    点赞
  • 17
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值