文章目录
RS特征处理
概述
本文从特征处理的角度来审视推荐系统。“Garbage in garbage out”(垃圾进垃圾出)表明 机器学习模型的能力边界在于对数据的拟合和泛化,那么数据及表达数据的特征本身就决定了机器学习模型效果的上届。
在推荐系统中,特征的本质是对某个行为过程相关信息的抽象表达,推荐过程中的某个行为必须转换成某种数学形式才能被机器学习模型所学习,因此要完成这种转换,就必须将这些行为过程中的信息以特征的形式抽象出来,用多个维度上的特征表达这一行为。
一是因为具体的推荐行为和场景中包含大量原始的场景、图片和状态信息,保存所有信息的存储空间过大,无法在现实中满足;二是因为具体的推荐场景中包含大量冗余的、无用的信息,都考虑进来甚至会损害模型的泛化能力。搞清楚这两点后,就可以顺理成章地提出构建推荐系统特征工程的原则:
- 尽可能地让特征工程抽取出的一组特征能够保留推荐环境及用户行为过程中的所有有用信息,尽量摒弃冗余信息
常用特征
在已有的、可获得的数据基础上,“尽量”保留有用信息是一个现实的工程上的原则。
用户行为特征
用户行为数据是推荐系统最常用,也是最关键的数据。用户的潜在兴趣、用户对物品的真实评价均包含在用户的行为历史中。用户行为在推荐系统中一般分为显性反馈行为(explicit feedback )和隐性反馈行为( implicit fedback)两种,在不同的业务场景中,则以不同的形式体现。
主要包括: