【机器学习】特征类型总结-CSDN博客

本文链接：https://blog.csdn.net/weixin_31866177/article/details/115104435

广义来讲分为 类别、id型特征+数值型特征

第一类是类别、ID 型特征——电影的风格、ID、标签、导演演员等信息，用户看过的电影 ID、用户的性别、地理位置信息、当前的季节、时间（上午，下午，晚上）、天气等等，这些无法用数字表示的信息全都可以被看作是类别、ID 类特征。

第二类是数值型特征——能用数字直接表示的特征就是数值型特征，典型的包括用户的年龄、收入、电影的播放时长、点击量、点击率等。

进行特征处理的目的，是把所有的特征全部转换成一个数值型的特征向量。

对于数值型特征，这个过程非常简单，直接把这个数值放到特征向量上相应的维度上就可以了。但是对于类别、ID 类特征，我们应该怎么处理它们呢？

one-hot——将类别、ID 型特征转换成数值向量的一种最典型的编码方式

类别型特征转换

id型特征转换

也是one-hot。举例假设，我们的电影库中一共有 1000 部电影，电影 M 的 ID 是 310（编号从 0 开始），那这个行为就可以用一个 1000 维的向量来表示，让第 310 维的元素为 1，其他元素都为 0。

One-hot 编码也可以自然衍生成 Multi-hot 编码。比如，对于历史行为序列类、标签特征等数据来说，用户往往会与多个物品产生交互行为，或者一个物品被打上多个标签，这时最常用的特征向量生成方式就是把其转换成 Multi-hot 编码。因为每个电影都是有多个 Genre（风格）类别的，所以我们就可以用 Multi-hot 编码完成标签到向量的转换。

multi-hot e.g. :

用户行为特征是multi-hot的，即多值离散特征。针对这种特征，由于每个涉及到的非0值个数是不一样的，常见的做法就是将id转换成embedding之后，加一层pooling层，比如average-pooling，sum-pooling，max-pooling。DIN中使用的是weighted-sum，其实就是加权的sum-pooling，权重经过一个activation unit计算得到。

总结一哈

特征类型	含义
离散特征/ 属性类	色泽 [青绿、乌黑、浅白]（如上图）
标签类特征	也是离散的类别特征
ID类特征	也是离散特征，电商领域为例，存在大量ID类特征，比如user ID, item ID, product ID, store ID, brand ID和category ID等
连续特征	密度、含糖率（如上图）；分桶是离散化的常用方法，将连续特征离散化为一系列 0/1 的离散特征，离散化之后得到的稀疏向量，内积乘法运算速度更快，计算结果方便存储。