【机器学习】特征类型总结

广义来讲分为 类别、id型特征+数值型特征

第一类是类别、ID 型特征——电影的风格、ID、标签、导演演员等信息,用户看过的电影 ID、用户的性别、地理位置信息、当前的季节、时间(上午,下午,晚上)、天气等等,这些无法用数字表示的信息全都可以被看作是类别、ID 类特征。

第二类是数值型特征——能用数字直接表示的特征就是数值型特征,典型的包括用户的年龄、收入、电影的播放时长、点击量、点击率等。

进行特征处理的目的,是把所有的特征全部转换成一个数值型的特征向量

对于数值型特征,这个过程非常简单,直接把这个数值放到特征向量上相应的维度上就可以了。但是对于类别、ID 类特征,我们应该怎么处理它们呢?

one-hot——将类别、ID 型特征转换成数值向量的一种最典型的编码方式

类别型特征转换

id型特征转换

也是one-hot。举例 假设,我们的电影库中一共有 1000 部电影,电影 M 的 ID 是 310(编号从 0 开始),那这个行为就可以用一个 1000 维的向量来表示,让第 310 维的元素为 1,其他元素都为 0。

One-hot 编码也可以自然衍生成 Multi-hot 编码。比如,对于历史行为序列类、标签特征等数据来说,用户往往会与多个物品产生交互行为,或者一个物品被打上多个标签,这时最常用的特征向量生成方式就是把其转换成 Multi-hot 编码。因为每个电影都是有多个 Genre(风格)类别的,所以我们就可以用 Multi-hot 编码完成标签到向量的转换。

multi-hot e.g. :

用户行为特征是multi-hot的,即多值离散特征。针对这种特征,由于每个涉及到的非0值个数是不一样的,常见的做法就是将id转换成embedding之后,加一层pooling层,比如average-pooling,sum-pooling,max-pooling。DIN中使用的是weighted-sum,其实就是加权的sum-pooling,权重经过一个activation unit计算得到。

 

总结一哈

特征类型

含义

离散特征/ 属性类

色泽 [青绿、乌黑、浅白](如上图)
标签类特征也是离散的类别特征
ID类特征也是离散特征,电商领域为例,存在大量ID类特征,比如user ID, item ID, product ID, store ID, brand ID和category ID等
连续特征密度、含糖率(如上图);分桶是离散化的常用方法,将连续特征离散化为一系列 0/1 的离散特征,离散化之后得到的稀疏向量,内积乘法运算速度更快,计算结果方便存储。
  
  
  

 

 

 

 

 

 

 

 

 

 

 

 

如何进行特征处理呢?

 

 

标签和特征的区别

在知乎里看到的几个。

标签包含有特征。一个标签可以包含有很多特征。

特征是事物固有属性,标签是根据固有属性产生的认知,并不一定是事物本身所具有的属性。

特征是做出某个判断的证据,标签是结论。

 

 

参考:

如何区别「标签」和「特征」? - 知乎

机器学习中标签和特征具体的定义是什么? - 知乎

连续特征的离散化:在什么情况下将连续的特征离散化之后可以获得更好的效果? - 知乎

  • 1
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值