常见的类别特征处理方法
- one-hot (太经典这里不再介绍)
- histgram 映射
- Entity Embeddings(实体嵌入)
histgram 映射
比如我们根据人们的一些身体特征来预测这个人会不会得糖尿病
其中有一个类别特征为男或者女,这时候我们如何对这个特征进行映射处理呢。
按照histgram 的处理方式,会按照预测的类别的占比来标注属性。也是假如有这样一个统计列表:
性别\是否得病 | 有糖尿病 | 无糖尿病 |
---|---|---|
男 | 60 | 40 |
女 | 50 | 50 |
我们可以男:60/(60+40) = 0.6;女:50/(50+50) = 0.5。作为各自的特征。
Entity Embeddings
Embedding的起源和火爆都是在NLP中的,经典的word2vec都是在做word embedding这件事情,而真正首先在结构数据探索embedding的是在kaggle上的《Rossmann Store Sales》中的rank 3的解决方案,作者在比赛完后为此方法整理一篇论文放在了arXiv,文章名:《Entity Embeddings of Categorical Variables》。
其网络结构如下图