吴恩达Coursera深度学习课程 deeplearning.ai (5-2) 自然语言处理与词嵌入--课程笔记

最新推荐文章于 2024-07-18 14:25:41 发布

haoyutiangang

最新推荐文章于 2024-07-18 14:25:41 发布

阅读量1.3k

点赞数

分类专栏：机器学习深度学习吴恩达

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/haoyutiangang/article/details/81213697

版权

本文是吴恩达Coursera深度学习课程关于自然语言处理和词嵌入的笔记，介绍了词汇表征（one-hot、词嵌入）、词嵌入的应用（如命名实体识别、迁移学习）、词嵌入特性（类比推理、距离相似度）、词嵌入矩阵、Word2Vec、GloVe模型、情绪分类以及词嵌入消除偏见等内容。

摘要由CSDN通过智能技术生成

2.1 词汇表征

前面内容中，我们直接使用英文单词来表征词汇，但是对于计算机来说，是无法直接认识单词的。
为了让计算机能够能更好地理解我们的语言，建立更好的语言模型。
这就需要将词汇进行表征。下面是几种不同的词汇表征方式。

one-hot 表征

利用one-hot向量，将单词表示为词典大小的向量，字典中对应该单词的位置为1，其余位置为0。

缺点：将每个词孤立了起来，泛化能力不强。每个词向量之间的距离都一样，内积均为0，无法获取词与词之间的相似性和关联性。

特征表征：词嵌入

用多个不同的特征来对各个词汇进行表征，每个单词对于每个特征都有一个相关特征值，多个特征的特征值组成单词的特征向量，相似的词的特征向量就比较接近，从而可以获取词与词之间的相似性和关联性。

使用t-SNE算法将高维的词向量映射到2维空间，对词向量进行可视化，可以看出对于相似的词总是聚集在一块儿

常用的多维转换为二维的方法：t-SNE

词好像一个一个的嵌入到了一个多维空间中，所以叫做词嵌入。

2.2 使用词嵌入

词嵌入对每个单词进行特征化表示，这种表示方法可以应用到NLP中。

命名实体识别

如下图所示，学习到第一个句子: sally Johnson is an orange farmer, 根据orange与apple相似，可以推断出Robert Lin也是一个人名。但是如果我们没有学习过durian cultivator 那么我们就不知道durian也是一种水果，cultivator和farmer也类似。这种情况可以采用迁移学习。

词嵌入的迁移学习

和之前学习的迁移类似，都是利用已有模型的成果迁移到我们的模型上进行进一步的学习。

下面是词嵌入迁移学习的步骤：

第一步：从大量的文本集合中学习word Embeddings（1-100B words），或者从网上下载预训练好的词嵌入模型；
第二步：将词嵌入模型迁移到我们小训练集的新任务上；
第三步：可选，使用我们新的标记数据对词嵌入模型继续进行微调。

词嵌入与人脸编码

之前我们学习人脸识别时，通过同样的卷积神经网络给两张人脸照片编码，生成向量，比较向量的距离来确定是否是同一个人。与这里的词嵌入根据不同特征生成向量再比较向量的距离判断相似度，是基本类似的。

不同之处在于，人脸识别算法可以对任意一张人脸生成向量；而词嵌入只能对已有词汇表中的词给出向量，未学习过的词无法识别。

2.3 词嵌入的特性

类比推理

词嵌入可以实现类比推理。通过不同词向量之间的相减计算，可以发现不同词之间的类比关系。

man——woman
king——queen

这个例子中多维向量相减后发现性别维度不同，其他维度减完基本为0。但是多维向量利用t-SNE算法映射到二维后这个方法就不灵了，因为映射算法是非线性的，距离关系变了。

距离相似度

计算词与词之间的相似度，实际上是在多维空间中，寻找词向量之间各个维度的距离相似度。

相似度函数

余弦相似度函数（Cosine similarity）

s i m (u, v) = u T v | | u | | 2 | | v | | 2

$sim(u,v) = \frac{u^T\,v}{||u||_2\,||v||_2}$

2.4 嵌入矩阵

对一个词汇表学习词嵌入模型就是学习这个词汇表对应的一个嵌入矩阵E。

矩阵E：词汇个数*特征个数
o：词汇的one-hot向量
e: 词汇的特征向量

对于第j个词汇有：

E * o j = e j

$E * o_j = e_j$

2.5 学习词嵌入

早期的词嵌入算法比较复杂，随着时间发展，现在变得越来越简单。

下面例子中，要学习”juice”, 可以利用上面的 $E * o_j = e_j$ 计算出 $e_j$ , 将各个 $e_j$ 输入神经网络模型，通过反向传播和梯度下降计算E,从而预测出”juice”。

训练语言模型时通常选择目标词的前几个词来预测目标词。(历史窗口常选4)
而在其他的词嵌入中可以利用不同的方法选取上下文：
- 选取目标词之前的几个词
- 选取目标词前后的几个词
- 选取目标词前的一个词
- 选取目标词附近的一个词，（一种Skip-Gram模型的思想）

2.6 Word2Vec

Word2Vec算法是一种简单的计算更加高效的方式来实现对词嵌入的学习。

Skip-grams

抽取上下文（Content）和目标词（Target）配对，来构造一个监督学习问题。

随机选择一个词作为上下文，同时在上下文的一定距离范围内随机选择另外一个词作为目标词。

模型流程

词汇表：Vocab size = 10000
基本监督学习：构建上下文（C）和目标词（T）的映射关系：C——T

最低0.47元/天解锁文章

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

haoyutiangang CSDN认证博客专家 CSDN认证企业博客

码龄9年

79: 原创

4万+: 周排名

201万+: 总排名

13万+: 访问

: 等级

2087: 积分

188: 粉丝

165: 获赞

31: 评论

647: 收藏

私信

关注

热门文章

分类专栏

决策树 7篇
Hadoop实战 4篇
ZooKeeper
Flume 1篇
Kafka 2篇
Storm 2篇
项目基础 2篇
Hive 3篇
Java 2篇
Spark 1篇
算法 14篇
LeetCode 14篇
机器学习 48篇
深度学习 41篇
吴恩达 34篇

最新评论

深度学习系列6：卷积神经网络的反向传播
提莫队长刘谢文: 兄弟，请问解决了吗？是直接相加吗？
吴恩达Coursera深度学习课程 deeplearning.ai (4-4) 人脸识别和神经风格转换--编程作业
自向阳_: def compute_layer_style_cost(a_S, a_G): """ Arguments: a_S -- tensor of dimension (1, n_H, n_W, n_C), hidden layer activations representing style of the image S a_G -- tensor of dimension (1, n_H, n_W, n_C), hidden layer activations representing style of the image G Returns: J_style_layer -- tensor representing a scalar value, style cost defined above by equation (2) """ ### START CODE HERE ### # Retrieve dimensions from a_G (≈1 line) m, n_H, n_W, n_C = a_G.get_shape().as_list() # Reshape the images to have them of shape (n_C, n_H*n_W) (≈2 lines) a_S = tf.transpose(tf.reshape(a_S, [n_H * n_W, n_C])) a_G = tf.transpose(tf.reshape(a_G, [n_H * n_W, n_C])) # Computing gram_matrices for both images S and G (≈2 lines) GS = gram_matrix(a_S) GG = gram_matrix(a_G) # Computing the loss (≈1 line) J_style_layer = (1 / (2 * n_C * n_W * n_H) ** 2) * (tf.reduce_sum(tf.square(tf.subtract(GS, GG)))) ### END CODE HERE ###
深度学习系列6：卷积神经网络的反向传播
AgileFastx: 请问对于多filter的情况如何求dA
决策树系列3：信息增益、增益率、基尼系数 (史上最详尽)
Artemisia_Cain: 这里信息增益的举例算错了吧，应该是Ent(X|场地=室外)后面不应该是logbase2吗？log()这怎么直接用的lg来算啊，lg(1/2)才是0.3010。
吴恩达Coursera深度学习课程 deeplearning.ai (4-4) 人脸识别和神经风格转换--编程作业
qq_43724777: The Session graph is empty. Add operations to the graph before calling run().

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。