NLP应用（二）--Embedding

Trisyp

已于 2023-02-01 18:22:27 修改

阅读量459

点赞数 1

分类专栏：深度学习文章标签： NLP embedding

于 2021-02-28 17:58:35 首次发布

本文链接：https://blog.csdn.net/Trisyp/article/details/114233349

版权

深度学习专栏收录该内容

15 篇文章 0 订阅

订阅专栏

step1. one-hot encoding

首先，根据上篇内容我们知道，单词可以利用one-hot encoding进行编码，假设编码如下：

Key(word)	Value(index)	One-hot encoding
love	1	e1=[1,0,0,0,…,0]
you	2	e2=[0,1,0,0,…,0]
,	3	e3=[0,0,1,0,…,0]
him	4	e4=[0,0,0,1,…,0]
another	5	……
He	6	……
I	7	……
……	……	……

one-hot向量e1,e2,…,e_v的维数是v（假设vocabulary共包含v个唯一词）。

step2. word embedding（word to vector）

但实际中不可能用v维的向量来表示单词，因为vocabulary的单词数量一般至少都是上千上万的，所以就需要将one-hot向量映射到低维向量，公式如下：

其中P是参数矩阵，是需要利用训练数据学习出来的；e_i是vocabulary中的第i个one-hot向量。

d的大小会影响模型学习的表现，一般会采用交叉验证（cross validation）方法选择比较好的d（即参数矩阵P）。

以下面影评的8个词为例，参数矩阵的第一行是“movie”的词向量，第二行是“good”的词向量，……

假如这些词向量是二维的，最后训练出来的词会带有感情色彩，平面坐标系就能把这些词进行标注，第一象限就是正面词，第三象限就是负面词。

Python实现示例：

step3. Logistic Regression for Binary Classification

我们用逻辑回归做二元分类来举例说明如何做文本分类，python实现代码如下图：

首先安装和导入keras对应算法包，然后调用Embedding，指定句子长度word_num=20，vocabulary包含10000个单词。通过summary打印对应信息：

得到embedding矩阵之后，先利用compile编译模型，再用训练数据拟合模型。

一个epoch指代所有的数据送入网络中完成一次前向计算及反向传播的过程。我们都知道，在训练时，将所有数据迭代训练一次是不够的，需要反复多次才能拟合收敛。在实际训练时，我们将所有数据分成几个batch，每次送入一部分数据，梯度下降本身就是一个迭代过程，所以单个epoch更新权重是不够的。epoch大小与数据集的多样化程度有关，多样化程度越强，epoch应该越大。

因此，epoch的个数是非常重要的。关于epoch为何这样选择可以看下图：

完成训练之后就需要利用测试集来进行准确率评估：

总结上述过程如下：

注意：161个参数是因为模型还有一个偏移量参数intercept。

上一篇：NLP应用（一）--tokenization

下一篇：NLP应用（三）--RNNs(Recurrent Neural Networks)

Trisyp

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
打赏
1
评论
NLP应用（二）--Embedding

NLP应用（一）--tokenization（https://blog.csdn.net/Trisyp/article/details/114138818）1. one-hot encoding首先，根据上篇内容我们知道，单词可以利用one-hot encoding进行编码，假设编码如下： Key(word) Value(index) One-hot encoding love 1
复制链接

扫一扫