类别特征处理与实体嵌入

最新推荐文章于 2024-03-02 15:15:03 发布

张月鹏

最新推荐文章于 2024-03-02 15:15:03 发布

阅读量6.6k

点赞数 2

分类专栏：深度学习文章标签：实体嵌入 Entity Embedding 类别特征处理

本文链接：https://blog.csdn.net/h4565445654/article/details/78998444

版权

本文探讨了在预测任务中处理类别特征的方法，包括histgram映射和Entity Embeddings（实体嵌入）。Entity Embeddings通过神经网络将类别转化为连续向量，能有效提升模型性能。研究发现，店铺所在地的嵌入向量与地图位置相关，并能增强其他算法的准确性。

摘要由CSDN通过智能技术生成

常见的类别特征处理方法

one-hot （太经典这里不再介绍）
histgram 映射
Entity Embeddings（实体嵌入）

histgram 映射

比如我们根据人们的一些身体特征来预测这个人会不会得糖尿病
其中有一个类别特征为男或者女，这时候我们如何对这个特征进行映射处理呢。

按照histgram 的处理方式，会按照预测的类别的占比来标注属性。也是假如有这样一个统计列表：

性别\是否得病	有糖尿病	无糖尿病
男	60	40
女	50	50

我们可以男：60/(60+40) = 0.6；女：50/(50+50) = 0.5。作为各自的特征。

Entity Embeddings

Embedding的起源和火爆都是在NLP中的，经典的word2vec都是在做word embedding这件事情，而真正首先在结构数据探索embedding的是在kaggle上的《Rossmann Store Sales》中的rank 3的解决方案，作者在比赛完后为此方法整理一篇论文放在了arXiv，文章名：《Entity Embeddings of Categorical Variables》。

其网络结构如下图