one_hot,embedding

最新推荐文章于 2024-06-05 19:55:01 发布

DK_tian

最新推荐文章于 2024-06-05 19:55:01 发布

阅读量645

点赞数 3

文章标签： python

原文链接：https://zhuanlan.zhihu.com/p/146117421

版权

转载：笔记1 one-hot、embedding - 知乎one-hot在特征工程中需要对数据进行预处理，one-hot在数据预处理中比较常见 1.什么是one-hotOne-Hot编码，又称为一位有效编码，主要是采用N位状态寄存器来对 N个状态进行编码，每个状态都由他独立的寄存器位，并且…https://zhuanlan.zhihu.com/p/146117421

one-hot

在特征工程中需要对数据进行预处理，one-hot在数据预处理中比较常见

1.什么是one-hot

One-Hot编码，又称为一位有效编码，主要是采用N位状态寄存器来对N个状态进行编码，每个状态都由他独立的寄存器位，并且在任意时候只有一位有效。

One-Hot编码是分类变量作为二进制向量的表示。

2.one-hot编码过程

比如我们要对 “hello world” 进行one-hot编码，怎么做呢？

1.确定要编码的对象--hello world，

2.确定分类变量--h e l l o 空格 w o r l d，共27种类别（26个小写字母 + 空格，）；

3.以上问题就相当于，有11个样本（对这句话进行拆分后的个数），每个样本有27个特征，将其转化为二进制向量表示，

这里有一个前提，特征排列的顺序不同，对应的二进制向量亦不同（比如我把空格放在第一列和a放第一列，one-hot编码结果肯定是不同的）

因此我们必须要事先约定特征排列的顺序：

1、27种特征首先进行整数编码：a--0，b--1，c--2，......，z--25，空格--26

2、27种特征按照整数编码的大小从前往后排列

得到的one-hot编码如下：

再比如：我们要对["中国", "美国", "日本"]进行one-hot编码，

怎么做呢？

1.确定要编码的对象--["中国", "美国", "日本", "美国"]，

2.确定分类变量--中国美国日本，共3种类别；

3.以上问题就相当于，有4个样本，每个样本有3个特征，将其转化为二进制向量表示，

我们首先进行特征的整数编码：中国--0，美国--1，日本--2，并将特征按照从小到大排列

得到one-hot编码如下：

["中国", "美国", "日本", "美国"] ---> [[1,0,0], [0,1,0], [0,0,1], [0,1,0]]

3.为什么需要one-hot编码？

one hot编码是将类别变量转换为机器学习算法易于利用的一种形式的过程。

上面的 hello world 相当于多分类的问题（27分类），每个样本只对应于一个类别（即只在对应的特征处值为1，其余地方值为0），而我们的分类结果，得到的往往是隶属于某个类别的概率，这样在进行损失函数（例如交叉熵损失）或准确率计算时，变得非常方便。

转载：详解one-hot编码

embedding

1.什么是embedding

简单来说，embedding就是用一个低维的向量表示一个物体，可以是一个词，或是一个商品，或是一个电影等等。这个embedding向量的性质是能使距离相近的向量对应的物体有相近的含义，比如 Embedding(复仇者联盟)和Embedding(钢铁侠)之间的距离就会很接近，但 Embedding(复仇者联盟)和Embedding(乱世佳人)的距离就会远一些。

言归正传，Embedding能够用低维向量对物体进行编码还能保留其含义的特点非常适合深度学习。在传统机器学习模型构建过程中，我们经常使用one hot encoding对离散特征，但由于one hot encoding的维度等于物体的总数，比如阿里的商品one hot encoding的维度就至少是千万量级的。这样的编码方式对于商品来说是极端稀疏的，甚至用multi hot encoding对用户浏览历史的编码也会是一个非常稀疏的向量。而深度学习的特点以及工程方面的原因使其不利于稀疏特征向量的处理。因此如果能把物体编码为一个低维稠密向量再喂给DNN（深度神经网络），自然是一个高效的基本操作。

2.应用embedding的word2vec

对word的vector表达的研究早已有之，但让embedding方法空前流行，我们还是要归功于google的word2vec。我们简单讲一下word2vec的原理：

既然我们要训练一个对word的语义表达，那么训练样本显然是一个句子的集合。假设其中一个长度为T的句子为。这时我们假定每个词都跟其相邻的词的关系最密切，换句话说每个词都是由相邻的词决定的（CBOW模型的动机），或者每个词都决定了相邻的词（Skip-gram模型的动机）。如下图，CBOW的输入是 [公式] 周边的词，预测的输出是，而Skip-gram则反之，经验上讲Skip-gram的效果好一点，所以本文从Skip-gram模型出发讲解模型细节。

3.从word2vec到item2vec

在word2vec诞生之后，embedding的思想迅速从NLP领域扩散到几乎所有机器学习的领域，我们既然可以对一个序列中的词进行embedding，那自然可以对用户购买序列中的一个商品，用户观看序列中的一个电影进行embedding。而广告、推荐、搜索等领域用户数据的稀疏性几乎必然要求在构建DNN之前对user和item进行embedding后才能进行有效的训练。

转载：王喆：万物皆Embedding，从经典的word2vec到深度学习基本操作item2vec

深度学习中嵌入层有什么用？

在深度学习实验中经常会遇Embedded层，然而网络上的介绍可谓是相当含糊.比如Keras中文文档中对嵌入层Embedded的介绍除了一句“嵌入层将正整数(下标)转换为具有固定大小的向量“之外就不愿做过多的解释。那么我们为什么要使用嵌入层嵌入呢？主要有这两大原因：

使用One-hot编码的向量会很高维也很稀疏.假设我们在做自然语言处理(NLP)中遇到了一个包含2000个词的字典，当使用One-hot编码时，每一个词会被一个包含2000个整数的向量来表示，其中1999个数字是0，要是我的字典再大一点的话这种方法的计算效率岂不是大打折扣？嵌入层可以降维用来处理推荐系统中的稀疏矩阵问题。
训练神经网络的过程中，每个嵌入的向量都会得到更新.如果你看到了博客上面的图片你就会发现在多维空间中词与词之间有多少相似性，这使我们能可视化的了解词语之间的关系，不仅仅是词语，任何能通过嵌入层嵌入转换成向量的内容都可以这样做.