特征工程—04推荐系统可供利用的特征

特征工程—04推荐系统可供利用的特征

推荐系统是利用“用户信息”“物品信息”“场景信 息”这三大部分有价值数据,通过构建推荐模型得出推荐列表的工程系统。

特征工程就是利用工程手段从“用户信息”“物品信息”“场景信 息”中提取特征的过程。

一、构建推荐系统特征工程的原则

特征其实是对某个行为过程相关信息的 抽象表达

构建推荐系统特征工程的原则:尽可能地让特征工程抽取出的一组特征, 能够保留推荐环境及用户行为过程中的所有“有用“信息,并且尽量摒弃冗余信息。

二、推荐系统中的常用特征

1用户行为数据

用户行为数据是推荐系统最常用,也是最关键的数据。用户的潜在兴趣、用户对物品的真 实评价都包含在用户的行为历史中。用户行为在推荐系统中一般分为显性反馈行为 (Explicit Feedback)和隐性反馈行为(Implicit Feedback)两种,在不同的业务场景 中,它们会以不同的形式体现。具体是怎么表现的呢?你可以看我下面给出的几个例子。

不同业务场景下用户行为数据的例子

对用户行为数据的使用往往涉及对业务的理解,不同的行为在抽取特征时的权重不同,而且一些跟业务特点强相关的用户行为需要推荐工程师通过自己的观察才能发现。在当前的推荐系统特征工程中,隐性反馈行为越来越重要,主要原因是显性反馈行为的收集难度过大,数据量小。在深度学习模型对数据量的要求越来越大的背景下,仅用显性反馈的数据不足以支持推荐系统训练过程的最终收敛。所以,能够反映用户行为特点的隐性反馈是目前特征挖掘的重点。

2. 用户关系数据

如果说用户行为数据是人与物之间 的“连接”日志,那么用户关系数据就是人与人之间连接的记录。就像我们常说的那句 话“物以类聚,人以群分”,用户关系数据毫无疑问是非常值得推荐系统利用的有价值信 息。 用户关系数据也可以分为“显性”和“隐性”两种,或者称为“强关系”和“弱关系”。 如图 4 所示,用户与用户之间可以通过“关注”“好友关系”等连接建立“强关系”,也 可以通过“互相点赞”“同处一个社区”,甚至“同看一部电影”建立“弱关系”。

在推荐系统中,利用用户关系数据的方式也是多种多样的,比如可以将用户关系作为召回 层的一种物品召回方式;也可以通过用户关系建立关系图,使用 Graph Embedding 的方 法生成用户和物品的 Embedding;还可以直接利用关系数据,通过“好友”的特征为用户 添加新的属性特征;甚至可以利用用户关系数据直接建立社会化推荐系统。
在这里插入图片描述

3.属性、标签类数据

推荐系统中另外一大类特征来源是属性、标签类数据,这里我把属性类和标签类数据归为 一组进行讨论,是因为它们本质上都是直接描述用户或者物品的特征。属性和标签的主体 可以是用户,也可以是物品。它们的来源非常多样,大体上包含图 5 中的几类。
在这里插入图片描述

用户、物品的属性、标签类数据是最重要的描述型特征。成熟的公司往往会建立一套用户 和物品的标签体系,由专门的团队负责维护,典型的例子就是电商公司的商品分类体系; 也可以有一些社交化的方法由用户添加。图 6 就是豆瓣的“添加收藏”页面,在添加收藏 的过程中,用户需要为收藏对象打上对应的标签,这是一种常见的社交化标签添加方法。
在这里插入图片描述

在推荐系统中使用属性、标签类数据,一般是通过 Multi-hot 编码的方式将其转换成特征 向量,一些重要的属性标签类特征也可以先转换成 Embedding,比如业界最新的做法是将 标签属性类数据与其描述主体一起构建成知识图谱(Knowledge Graph),在其上施以 Graph Embedding 或者 GNN(Graph Neural Network,图神经网络)生成各节点的 Embedding,再输入推荐模型。这里提到的不同的特征处理方法我们都会在之后的课程中 详细来讲。

4.内容类数据

内容类数据可以看作属性标签型特征的延伸,同样是描述物品或用户的数据,但相比标签 类特征,内容类数据往往是大段的描述型文字、图片,甚至视频。 一般来说,内容类数据无法直接转换成推荐系统可以“消化”的特征,需要通过自然语言 处理、计算机视觉等技术手段提取关键内容特征,再输入推荐系统。例如,在图片类、视 频类或是带有图片的信息流推荐场景中,我们往往会利用计算机视觉模型进行目标检测, 抽取图片特征,再把这些特征(要素)转换成标签类数据供推荐系统使用。
在这里插入图片描述

5.场景信息(上下文信息)

场景信息,或称为上下文信息(Context),它是描述推荐行为产生的场景的 信息。最常用的上下文信息是“时间”和通过 GPS、IP 地址获得的“地点”信息。根据推 荐场景的不同,上下文信息的范围极广,除了我们上面提到的时间和地点,还包括“当前 所处推荐页面”“季节”“月份”“是否节假日”“天气”“空气质量”“社会大事 件”等等。 场景特征描述的是用户所处的客观的推荐环境,广义上来讲,任何影响用户决定的因素都 可以当作是场景特征的一部分。但在实际的推荐系统应用中,由于一些特殊场景特征的获 取极其困难,我们更多还是利用时间、地点、推荐页面这些易获取的场景特征。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值