学习心得
- 本次task学习特征的选择,推荐系统中可用的特征非常多,但它们基本上可被划分到“用户行为”、“用户关系”、“属性标签”、“内容数据”、“场景信息”这五个类别,而且挑选特征的方法也遵循着“保留有用信息,摒弃冗余信息”的原则。
- 针对不同的推荐系统,要针对它们的业务特点,因地制宜地挑选合适的特征,抓住业务场景中的关键信息,这也是在工作中要积累的经验。从工程的角度来说,除了特征的挑选,特征工程还包括大量的数据预处理、特征转换、特征筛选等工作。
- 离散特征:维度不高就onehot,维度过高就做embedding。
- 用户ID、笔记ID、作者ID。
- 类目、关键词、城市、手机品牌。
- 连续特征:做分桶,变成离散特征。
- 年龄、笔记字数、视频长度。
- 连续特征:其他变换。
- 曝光数、点击数、点赞数等数值做 log 1 + 𝑥 。
- 转化为点击率、点赞率等值,并做平滑。
文章目录
一、特征工程是啥
推荐系统就是利用“用户信息”“物品信息”“场景信息”这三大部分有价值数据,通过构建推荐模型得出推荐列表的工程系统。