学习笔记(01):推荐系统核心精讲-数据与特征工程01

研发管理 专栏收录该内容
4 篇文章 0 订阅

立即学习:https://edu.csdn.net/course/play/26133/323851?utm_source=blogtoedu

数据与特征工程1

(1)推荐系统依赖的数据是什么?

一般分为4大类:

-用户行为数据:浏览、播放、收藏、点赞、评论、转发、加购物车、购买

-用户属性数据(人口统计学):年龄、地域、性别、学历、职业、收入情况等

-物品属性数据:例如视频,有标题、标签、演职员、年代、国别、语言等

-上下文数据:指用户在使用过程中的一些场景数据。比如用户所在地域、时间、日期、用户当前状态等

从数据格式上分:

-结构化数据:主要是文本类的或者数值类型的,用户属性数据、物品属性数据;每一行数据表示一个样本信息。

-半结构化数据:日志类数据,如用户行为数据,一般是json形式的。

-非结构化数据:可能包含音频、图片、视频等,其无法用一个简单的数值表示,也没有清晰的类别定义,并且每条数据的大小各不相同。

(2)什么是特征?什么是特征工程?

---什么是特征?

特征通常是建立在原始数据上的特定表示,它是一个单独的可测量属性,通常用数据集中的列表示。对于一个通用的二维数据集,每个观测值由一行表示,每个特征由一列表示,对于每一个观测值有一个特定的值。

特征通常从不同的维度来描述用户的信息。

 

---什么是特征工程?

特征工程是将原始数据转化为特征的过程,这些特征可以更好地向预测模型描述潜在问题,从而提高对未见数据的准确性。它对原始数据进行一系列工程处理,将其提炼为特征,作为输入供算法和模型使用。在实际工作中,特征工程旨在去除原始数据中的杂质和冗余,设计更高效的特征以刻画求解的问题与预测模型之间的关系。

如下图为机器学习的一般处理流程:

 

(3)特征的分类有哪些?

从特征的值类型来分:

-类别特征:比如性别(无序)、等级(有序)

-数值特征:比如身高、年龄

-时空特征:时间(相对的、周期性的)、地理位置(层级关系、距离)

从特征的可解释性来分:

-显式特征:类别、数值、时空、TF-IDF、LDA

-隐式特征:word2vec、矩阵分解等模型生成的嵌入特征。

(4)特征工程的一般流程与步骤

 

  • 0
    点赞
  • 0
    评论
  • 0
    收藏
  • 一键三连
    一键三连
  • 扫一扫,分享海报

©️2021 CSDN 皮肤主题: 大白 设计师:CSDN官方博客 返回首页
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、C币套餐、付费专栏及课程。

余额充值