推荐系统：特征工程、常用特征

u013250861

已于 2022-08-06 09:29:03 修改

阅读量317

点赞数

分类专栏：推荐系统/RS 文章标签：机器学习数据挖掘大数据

于 2022-07-29 21:10:23 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u013250861/article/details/126063449

版权

推荐系统/RS 专栏收录该内容

35 篇文章 8 订阅

订阅专栏

一、特征工程的重要性

在这里插入图片描述

特征工程可以使得机器学习模型更好的达到效果

推荐系统常用的特征

在这里插入图片描述

在这里插入图片描述

用户行为信息
属性、标签信息（不容易获取）
用户关系信息
内容信息
上下文信息

二、原始特征的不足

在这里插入图片描述

不属于统一量纲
信息冗余
存在非定量的定性特征
存在缺失值

三、特征工程的常见处理方法

在这里插入图片描述

标准化
- 较适合本身就呈现正态分布的数据（如价格）
- 对异常值不敏感
归一化
- 适合本身分布不确定的数据（如哑编码后端分类数据）
- 对异常值较为敏感
二值化
- 将定性特征转化为定量特征
哑编码
- 将离散属性分类特征转化为0、1向量
缺失值补全
- 常用补0、平均值、中位数等方法

四、特征选择

在这里插入图片描述

Apache Spark

开源的分布式计算框架
- 计算速度快：相对于Hadoop有最多100倍的提升 - 强大的缓存设计：通过简单的接口提供内存+硬盘缓存
- 部署灵活：支持YARN，k8s等集群管理工具 - 实时性高：提供专门针对流计算的工具
- 通用性高：提供多种语言API以及各种业务抽象
RDD
- Resilient Distributed Dataset
- Resilient: 良好的容错性和错误自动恢复能力
- Distributed：天生的分布式
- Dataset：对用户提供统一的、分布透明的编程接口

行为数据采集

用户与产品交互时产生的数据，如点赞、收藏、浏览
通常由客户端埋点上传
为何使用Kafka处理行为数据？ - 解耦：消息生产者和消费者可以互相独立工作
- 拓展性：应对用户量快速扩张可以高效扩容
- 削峰填谷：在活动期间有效保障流量平稳分发
- 异步通信：适合处理行为数据
Kafka核心概念
- Broker：集群中的服务器
- Topic：消息的逻辑类别
- Partition：topic下的物理存储单元 - Producer\Consumer：消息生产、消费者 - Consumer Group：消费者群组

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。