「推荐系统中的特征工程」03:推荐系统中的特征分类

作者 | gongyouliu

编辑 | auroral-L

全文共3019字,预计阅读时间25分钟。

大家好,我是强哥。一个热爱暴走、读书、写作的人!

本章目录

一、从信息本身的特性来划分

    1. 离散特征

    2. 连续(数值)特征

    3. 时间特征

    4. 空间特征

    5. 文本特征

    6. 富媒体特征

二、从推荐系统维度来划分

    1. 用户维度的特征

    2. 物品维度的特征

    3. 用户行为特征

    4. 场景化特征

    5. 交叉特征

总结

特征是人类为了更好地认识、描述、理解世界而抽象出的一种描述事物的方法。我们在现实生活中经常用一些名词、形容词来描述一个人的长相、为人处事等方面,比如这个人很靠谱、这个人看起来很奸诈、这个人长得很清秀等等,这都是对人的特性的一种描述和抽象。

在机器学习中,我们也需要对获得的信息(数字、文本、图片、视频、音频等)进行类似的抽象,才能让机器更好地认识、描述、理解、挖掘出数据背后的规律。机器学习本质上是一种数学方法和工具,所以一般来说,机器学习只适合处理与数字相关的信息(例外也是有的,树模型可以处理非数值数据,很多NLP模型也是直接处理文本的)。所以对信息的理解首先要将信息转化为数字,这就是特征工程的工作。

在讲特征工程之前,我们需要知道有哪些类别的信息是可以转化为特征的,这就是特征分类问题。能够转化为特征的信息首先是能够被记录、被数字化的。目前数字、地理位置、时间、文字、图片、视频、声音是可以被物理设备记录的,因而都是可以数字化的。这种根据信息本身的特性进行分类是一种非常直观的方法。

另外,我们这本书探讨的是推荐系统的特征工程,那么肯定也可以从推荐系统维度对特征进行分类,这是这一章对特征的第二种分类方法。

具体来说,本章我们从信息本身的特性和推荐系统维度来对特征进行分类,并且简单描述每个类别的特征的一些基本概念、特性和案例,方便读者更好地理解和进行后续章节的学习。下面我们分别介绍。

一、从信息本身的特性来划分

1. 离散特征

现实世界中很多事物和现象都是采用自然数来描述和记录的(最早可以追溯到远古人类的结绳记事),自然界受制于资源,很多存在的事物(比如马的数量在地球上是有限的)数量是有限的,这类数量有限的事物是非常普遍的。如果事物的某个维度可以表示为有限集合的形式,那么我们称这个维度为离散的。如果这个维度还可以作为(机器学习中的)一个特征,那么就称为离散特征。离散特征是非常常见的一类特征,推荐系统中的用户属性数据、物品属性数据中就包含大量的类别特征,如性别、学历、商品颜色、尺寸、产地等等。

2. 连续(数值)特征

事物的某些维度可以用连续值来表示,如用户身高、体重,商品的价格、重量等。在机器学习场景下,这类用连续值表示的特征称为连续特征。连续的数据是机器学习算法直接可以使用的数据。

3. 时间特征

时间对于描述事物是非常关键的,很多事物是随着时间而发展变化的,甚至是时间驱动的。所以在机器学习中,时间维度是一个非常重要的描述事物的维度,时间也是一类非常重要的特征。比如用户在视频网站上的行为就存在周末跟工作日明显的差异性。

4. 空间特征

对于一些与地理位置相关的服务,比如送外卖、旅游、到店、打车等服务,地理位置对用户决策非常关键,甚至是决定性的。对于这些业务,地址位置就是非常核心的特征。

5. 文本特征

人类拥有语言文字是人区别于动物的最重要的本质特征之一。文字具备抽象性,可以描述现实世界中的很多事物,甚至可以描述人的心理状态和情感。因此文字是非常重要的一类信息,在互联网产品中,文字无处不在。那么怎么将文字转化为机器学习可以利用的特征也变得非常必要了,这个过程需要用到很多NLP相关的技术。

6. 富媒体特征

图片、音频、视频等富媒体数据,也越来越重要,抖音、快手变得越来越受大家欢迎就可见一斑。这些富媒体数据对于理解用户的行为、辅助用户决策非常关键。因此,将这些更复杂的数据转化为机器学习可以利用的特征就显得特别重要。

二、从推荐系统维度来划分

推荐系统解决的问题可以描述为:推荐系统是基于用户的历史行为,挖掘用户的兴趣偏好,并在特定的场景下,将用户喜欢的物品在合适的时间、地点、场景推荐给用户的过程。那么从这个角度来说,推荐系统中的特征可以分为如下几类。

1. 用户维度的特征

这是指与用户本身相关的一些特征,比如用户的年龄、性别、学历、收入等。这些特征有些是稳定不变的,如性别。有些是缓慢变化的,比如居住地。有些是持续(频繁)变化的,如年龄等。有些产品是很容易收集到用户的这类信息的(比如淘宝、微信等,他们是需要用户身份注册的,所以对用户的情况一清二楚),有些产品就非常难(比如今日头条,因为是不需要用户注册就可以使用)。在个人信息安全法实施之后,这类数据的收集和使用需要特别注意是否会引起法律风险。

2. 物品维度的特征

物品是待推荐给用户的,物品作为一个实体,是包含很多属性的,这些属性就是物品的特征,这些特征包含质地、产地、颜色、等级、尺寸等。不同的物品具有非常不同的属性,因此特征也是千差万别的。例如,实物(如手机)与虚拟物品(如短视频)的特征是差异很大的,手机有重量、颜色、内存、空间等属性,这是短视频没有的,短视频有创作者、文本长度等属性,这些又是手机没有的。

3. 用户行为特征

用户行为特征是指与用户在APP上的行为相关的特征。比如用户访问的频次、用户访问的时段、用户是否经常快进、快退等,这些是一些统计特征,是可以通过简单的数据分析获得的。

另外一些行为特征可能需要借助复杂的数学(机器学习)模型才能获得,比如可以将用户的行为矩阵(行是用户,列是物品,某一行某一列对应的值是用户对该物品的打分,如果没有分值体系,那么可以用0和1区分,1代表有操作行为,0代表无操作行为)分解为用户特征矩阵和物品特征矩阵。那么这里的用户特征矩阵就可以当做用户的特征。显然,通过这种方式获取的用户特征是比较复杂的,每个维度的含义是抽象的、不明确的,甚至是没有意义的,这类特征也叫做隐式特征,不具备现实意义上的可解释性。

4. 场景化特征

给用户做推荐是在一定的场景下的行为,那么场景相关的信息是可以作为推荐的特征的。比如在家庭场景中看智能电视上的视频,白天、晚上的行为可能就不一样,因为面对的用户不一样。白天可能是老人在家,看的节目可能抗战类居多,晚上小孩和上班的父母都回家了,可能会看一些少儿节目、电视剧、电影等。对于像美团外卖这样的产品,用户点外卖的送货地点非常重要。

5. 交叉特征

交叉特征是上面几种特征通过交叉(即非线性的组合,比如相乘等)的方式获得的新特征。如果两个特征之间是有一定的联系的(即耦合的),那么这两个特征的交叉是非常有价值的。这里举个例子说明一下,比如性别和年龄就是一个可以非常好地进行交叉的特征。男性和女性在不同年龄段购买的商品是不一样的,这两个特征的交叉可以起到提升样本区分度的效果。

在本章中我们只是简单介绍了从推荐系统维度来看,特征可以分为5大类,并没有对每类特征怎么构建进行详细讲解。这一块我们放到第三篇「推荐系统中的特征工程」中深入介绍。

总结

本章我们从信息本身的特性、推荐系统维度等2个方面对推荐系统中的特征分类进行了简单介绍。从信息的特性来划分,特征可以分为离散特征、连续特征、时间特征、空间特征、文本特征和富媒体特征等6类。从推荐系统维度来划分,特征可以分为用户维度特征、物品维度特征、用户行为特征、场景化特征、交叉特征等5类。希望通过本章的梳理,读者对在推荐系统中可以从哪些维度构建特征有一个更明确的认知,为我们后续章节进行更深入地讲解打好基础。

我出版的畅销书《构建企业级推荐系统:算法、工程实现与案例分析》,可以跟这个系列文章一起阅读,大家有需要可以点击下面链接购买。

af6ead73ad6452f2f0a51dc687416646.png

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

数据与智能

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值