在诸多数据处理的问题中,存在着一类特殊的特征--多值特征,该类特征常见的情形有:
- 论文的关键字描述信息;
- 商品信息的描述;
- 网站关键词;
- 其它情况;
那么关于这些多值特征,该如何处理,都有哪些常见操作呢?本文我们介绍多值特征的8大处理技能,希望对大家有所启发和帮助。
- Count
- LabelEncoder
- Multi One-Hot
- CounterVector
- TfidfVectorizer
- Word2Vec
- 基础Multi-Value Embedding
- 加权Multi-Value Embedding
此处我们介绍几种最为常见的多值特征的处理技巧。
即计算多值特征中有多少个值。
如果特征存在明显的聚集效应,很多多值特征组合在一起就是一个有意义的信息,例如,
- 文章关键词里面的:SVM|监督学习;
- 商品里面的,女生|连衣裙;
等等,这些词组合在一起就是很有意义的一类信息,可以直接LabelEncoder进行编码;
这个不用多说了,就是每个不同的值对应一列特征,出现了就是1没出