基于内容的推荐算法与特征工程(数据标准化)

基于内容的推荐算法

在这里插入图片描述

  • Content-based Recommendations (CB) 根据推荐物品或内容的元数据,发现物品的相关性,再基于用户过去的喜好记录,为用户推荐相似的物品。
  • 通过抽取物品内在或者外在的特征值,实现相似度计算。
    比如一个电影,有导演、演员、用户标签UGC、用户评论、时长、风格等等,都可以算是特征。
  • 将用户(user)个人信息的特征(基于喜好记录或是预设兴趣标签),和物品(item)的特征相匹配,就能得到用户对物品感兴趣的程度
    在一些电影、音乐、图书的社交网站有很成功的应用,有些网站还请专业的人员对物品进行基因编码/打标签(PGC)

相似度计算

相似度的评判,可以用距离表示,而一般更常用的是“余弦相似度”
欧式距离
在这里插入图片描述

余弦相似度

在这里插入图片描述
在这里插入图片描述

基于内容的推荐算法

对于物品的特征提取 —— 打标签(tag)

  • 专家标签(PGC)
  • 用户自定义标签(UGC)
  • 降维分析数据,提取隐语义标签(LFM)

对于文本信息的特征提取 —— 关键词

  • 分词、语义处理和情感分析(NLP)
  • 潜在语义分析(LSA)

基于内容推荐系统的高层次结构

在这里插入图片描述

特征工程

特征:作为判断条件的一组输入变量,是做出判断的依据
目标:判断和预测的目标,模型的输出变量,是特征所产生的结果

特征 (feature):数据中抽取出来的对结果预测有用的信息。

  • 特征的个数就是数据的观测维度
  • 特征工程是使用专业背景知识和技巧处理数据,使得特征能在机器学习算法上发挥更好的作用的过程
  • 特征工程一般包括特征清洗(采样、清洗异常样本),特征处理和特征选择
  • 特征按照不同的数据类型分类,有不同的特征处理方法

1) 数值型特征处理

  • 用连续数值表示当前维度特征,通常会对数值型特征进行数学上的处理,主要的做法是 归一化 和 离散化
    幅度调整/归一化
  • 特征与特征之间应该是平等的,区别应该体现在特征内部
  • 例如房屋价格和住房面积的幅度是不同的,房屋价格可能在3000000 ~ 15000000(万)之间,而住房面积在40~300(平方米)之间,那么明明是平等的两个特征,输入到相同的模型中后由于本身的幅值不同导致产生的效果不同,这是不合理的
    在这里插入图片描述
    在这里插入图片描述
    离散化
    将原始连续值切断,转化为离散值
    在这里插入图片描述
  • 让座问题:假设我们要训练一个模型判断在公交车上应不应该给一个人让座,按照常理,应该是给年龄很大和年龄很小的人让座
  • 对于以上让座问题中的年龄特征,对于一些模型,假设模型为 y = θx,输入的 x(年龄)对于最后的贡献是正/负相关的,即 x 越大越应该让座,但很明显让座问题中,年龄和是否让座不是严格的正相关或者负相关,这样只能兼顾年龄大的人,无法兼顾年龄大的人和年龄小的人
  • 对于让座问题,我们可以使用阈值将年龄进行分段,将一个 age 特征分为多个特征,将连续值离散化:
  • 在电商中,每个人对于价格的喜好程度不同,但它不一定是严格的正相关或负相关,某些人可能就喜欢某一价格段内的商品
    离散化的两种方式
  • 等步长:简单但不一定有效
  • 等频:min – 25% – 75% – max

两种方法对比

  • 等频的离散化方法很精准,但需要每次都对数据分布进行一遍从新计算,因为昨天用户在淘宝上买东西的价格分布和今天不一定相同,因此昨天做等频的切分点可能并不适用,而线上最需要避免的就是不固定,需要现场计算,所以昨天训练出的模型今天不一定能使用
  • 等频不固定,但很精准,等步长是固定的,非常简单,因此两者在工业上都有应用

2)类别型特征处理

  • 类别型数据本身没有大小关系,需要将它们编码为数字,但它们之间不能有预先设定的大小关系,因此既要做到公平,又要区分开它们,那么直接开辟多个空间
  • One-Hot 编码/哑变量
  • One-Hot 编码/哑变量所做的就是将类别型数据 平行地展开,也就是说,经过 One-Hot 编码/哑变量后,这个特征的空间会膨胀
    在这里插入图片描述

3) 时间型特征处理

时间型特征既可以做连续值,又可以看做离散值。
连续值

  • 持续时间(网页浏览时长)
  • 间隔时间(上一次购买/点击离现在的时间间隔)
    离散值
  • 一天中哪个时间段
  • 一周中的星期几
  • 一年中哪个月/星期
  • 工作日/周末

4)统计型特征处理

  • 加减平均:商品价格高于平均价格多少,用户在某个品类下消费超过多少。
  • 分位线:商品属于售出商品价格的分位线处。
  • 次序性:商品处于热门商品第几位。
  • 比例类:电商中商品的好/中/差评比例。

推荐系统常见反馈数据

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值