基于内容的推荐算法
-
基于物品信息
-
概念图
概念
-
定义:( C o n t e n t − b a s e d R e c o m m e n d a t i o n s ( C B ) Content-based\space Recommendations(CB) Content−based Recommendations(CB)) 根据推荐物品或则内容数据,发现物品的相关性,再基于用户过去的喜爱记录,为用户推荐相似的物品
-
通过提取物品内在或则外在的特征值,实现 相似度计算
-
将 用户个人文本信息的特征 和 物品的特征 相匹配,即可得到用户对物品的喜爱程度
相似度计算
-
采用:余弦相似度
-
公式: s i m i l a r i t y = c o s ( θ ) = A B ∣ ∣ A ∣ ∣ ∣ ∣ B ∣ ∣ similarity = cos(\theta) = \frac{A B}{||A||||B||} similarity=cos(θ)=∣∣A∣∣∣∣B∣∣AB
-
如图:
用户个人文本信息的特征提取
- 分词、语义处理和情感处理 ( N L P NLP NLP)
- 潜在语义分析 ( L S A LSA LSA)
物品特征的提取:
- 专家标签 ( P G C PGC PGC)
- 用户自定义标签 ( U G C UGC UGC)
- 降维分析数据、提取隐语义标签 ( L F M LFM LFM)
基于内容推荐系统的高层次结构
- 概念图
特征工程
- 以房屋是否售出为例
- 特征 ( f e a t u r e feature feature) :数据中抽取出来的对结果预测有用的信息
- 特征的个数即数据的观测维度
- 特征工程最用:从专业背景知识和技巧处理数据,使得特征能够在机器学习算法上发挥更好作用的过程
- 特征工程包括:特征清洗 (采样、清洗异常样本),特征处理和特征选择
- 特征按照不同的数据类型 (离散型和连续型) 有不同的特征处理方法
- 数值型
- 类别型
- 时间型
- 统计型
数值型
-
定义:连续型数值表示当前维度,通常会对数值特征进行数学上的处理,主要做法是 归一化 和 离散化
-
归一化:特征之间应该是平等的,区别应当体现在特征内部;有些特征数值特别大而有些特征数值特别小,会因为本身的幅值差异造成机器学习效果不佳
- 公式: f e a t u r e n e w = f e a t u r e o l d f e a t u r e m a x − f e a t u r e m i n feature_{new} = \frac{feature_{old}}{feature_{max}-feature_{min}} featurenew=