序列模型——自然语言处理与词嵌入(理论部分)

本文深入探讨自然语言处理中的词嵌入技术,包括词汇表征、词嵌入的使用与特性,以及如何在情感分类任务中应用。通过词嵌入,可以捕捉词之间的关系,如曼到女人对应于国王到王后。学习词嵌入通常涉及从大规模文本中预训练模型,然后迁移到新的任务中。词嵌入的特性允许我们构建关系,如通过词向量的数学操作找到King与Queen的关系。此外,介绍了Skip-gram模型、分级Softmax和负采样的概念,这些方法提高了计算效率并优化了词嵌入学习。最后,情感分类任务展示了词嵌入如何帮助理解文本情感。
摘要由CSDN通过智能技术生成

1.词汇表征

深度学习已经给自然语言处理(Natural Language Process, NLP)带来革命性的变革。其中一个很关键的概念是词嵌入(word embedding),这是语言表示的一种方式,可以让算法自动的了解一些类似的词,例如男人对女人(man to woman),国王对王后(king to queen)等。

在此前的表示中,我们用的一直都是词典的编号来表达一个词,例如Man为词典中的第5391个词,那么我们用one-hot向量表示为 [ 0 , 0 , . . . , 1 , . . . , 0 , 0 ] T ( 其 中 1 的 索 引 为 5391 ) [0,0, ... , 1, ... ,0 ,0]^{T}(其中1的索引为5391) [0,0,...,1,...,0,0]T(15391), 表示为 O 5391 O_{5391} O5391。Woman为词典中的第9853个词,那么我们用one-hot向量表示为 [ 0 , 0 , . . . , 1 , . . . , 0 , 0 ] T ( 其 中 1 的 索 引 为 9853 ) [0,0, ... , 1, ... ,0 ,0]^{T}(其中1的索引为9853) [0,0,...,1,...,0,0]T19853,表示为 O 9853 O_{9853} O9853。这种表达方式最大的缺点就是将每个词都孤立起来了,这样使得算法对相关词的泛化能力不强。
这里写图片描述
除了one-hot之外,我们可以用特征化的表示,来表示每个词,Man、Woman、King、Queen、Apple、Orange或者词典中的任何一个单词,通过Man在每个特征的得分来得到描述于Man的向量,例如:特征依次为:gender、royal、age、food … … ,那么Man在各个特征的得分可能为[-1,0.01,0.03,0.09, … ],可以得到另外一个描述于Man的向量。
这里写图片描述
当我们有很多词的表示向量的时候,为了对他们进行可视化,常用的算法有 t − S N E t-SNE tSNE 算法,来自于Laurens van der Maaten 和 Geoff Hinton的论文,将这些向量投影到低维空间。通过这个投影,会发现相似的词总是聚在一起。
这里写图片描述
为什么称为嵌入?
假如用一个300维度的特征空间来表示物体,每一个物体(用300维度的向量表示)在这个特征空中的每个维度都占有一定的位置,因此可以看作是嵌入(embedding)。

2.使用词嵌入

用词嵌入(word embedding)做迁移学习的步骤:
1.先从大量的文本集中,学习词嵌入,一个非常大的文本集。或者可以下载网上预训练好的词嵌入模型。
2.然后可以用这些词嵌入模型,把它迁移到你的新的只有少量标注训练集的任务中,比如说用这个300维的词嵌入来表示你的单词,这样做的唯一好处就是可以用较低维的向量来代替原来one-hot 的10000维度的向量。
3.最后,当你在新的任务上训练模型的时候,可以选择使用新的数据来微调词嵌入。

在前面我们学习了人脸识别,用一张人脸作为输入,得到128维度的向量,如下图所示。通过训练Siamese network来生成人脸图片的编码,及时对于之前没有见过的图片,同样可以生成其编码。而对于词嵌入而言,我们的原始数据规模是固定的,就是说我们有10000个词,通过词嵌入来生成 e 1 、 e 2 . . . e 10000 e_{1}、e_{2} ... e_{10000} e1e2...e10000 等特征向量,这就是俩者之间的差别。
这里写图片描述

3.词嵌入的特性

当我们有Man、Woman、King、Queen、Apple、Orange这些词的时候,我们有 Man -> Woman的关系,那么King对应于哪一个词呢,很明显为King -> Queen, 那么我们怎么写一个算法使其知道 Man->Woman 时,King-> Queen?

我们可以用 e m a n 、 e w o m a n 、 e k i n g 、 e q u e e n e_man、e_woman、e_king、e_queen emanewomanekingequeen来分别代表Man、Woman、King和Queen,那么我们可以有以下等式,该思想来源于"Mikolov et. al., 2013, Linguistic regularities in continuous space word representations"。
e m a n − e w o m a n ≈ e k i n g − e ? ( 1 ) e_{man}-e_{woman}\approx e_{king}-e_{?} \quad (1) e<

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值