深度特征提取方法_基于深度学习的文本数据特征提取方法之Glove和FastText

本文介绍了Glove和FastText两种基于深度学习的文本数据特征提取方法。Glove通过全局词-词共现矩阵进行无监督学习,而FastText则利用字符n-gram克服罕见单词问题。实验显示,这些模型能有效应用于机器学习任务,如文档聚类,且FastText在某些场景下优于Word2Vec。
摘要由CSDN通过智能技术生成

作者:Dipanjan (DJ) Sarkar

编译:ronghuaiyang

导读

今天接着昨天的内容,给大家介绍Glove模型和FastText模型,以及得到的词向量如何应用在机器学习任务里。

(书接上回)

GloVe模型

GloVe模型指的是全局向量模型,是一种无监督学习模型,可以获得类似于Word2Vec的dense词向量。然而,技术是不同的,训练是在一个聚合的全局词-词共现矩阵上做的,可以得到具有有意义的子结构的向量空间。这个方法是斯坦福大学的Pennington等人发明的。

我们不会在这里从头开始详细介绍模型的实现。我们在这里会保持简单,并试图理解GloVe模型背后的基本概念。我们已经讨论了基于计数的矩阵分解的方法,如LSA以及预测的方法,如Word2Vec。文章称,目前,这两个方法都存在明显的缺陷。像LSA这样的方法可以有效地利用统计信息,但在单词类比任务上,比如我们如何发现语义相似的单词,它们的表现相对较差。像skip-gram这样的方法可能在类比任务上做得更好,但是它们在全局水平上没有很好地利用语料库的统计数据。

GloVe模型的基本方法是首先创建一个由(单词,上下文)对组成的巨大单词上下文共现矩阵,这样的话,该矩阵中的每个元素表示的是这个单词与上下文一起出现的频率(可以是单词序列)。接下来的想法是应用矩阵分解来逼近这个矩阵,如下图所示。

68a1a1ae28019d3c91c157e27771c2e6.png

考虑Word-Context (WC)矩阵、Word-Feature (WF)矩阵和Feature-Context (FC)矩阵,我们尝试对WC = WF x FC进行因式分解,将WFFC相乘,重构WC。为此,我们使用一些随机权重初始化WFFC,并尝试将它们相乘以得到WC'(WC的近似形式),并度量它与WC的距离。我们多次使用随机梯度下降(SGD)来降低误差。最后,单词特征矩阵(WF)为每个单词提供单词嵌入,其中F可以预先设置为特定数量的维度。需要记住的非常重要的一点是,Word2Vec和GloVe模型的工作原理非常相似。这两种方法的目的都是建立一个向量空间,在这个空间中,每个单词的位置都受到其相邻单词的上下文和语义的影响。Word2Vec以单词共现对的本地个别示例开始,GloVe以语料库中所有单词的全局聚合共现统计数据开始。

将Glove特征应用于机器学习任务

让我们尝试使用基于GloVe的嵌入式技术来完成文档聚类任务。非常流行的spacy框架具有利用基于不同语言模型来得到GloVe嵌入。你还可以获得预先训练好的词向量,并根据需要使用gensim或spacy加载它们。我们将首先安装spacy并使用en_vectors_web_lg模型,该模型由训练在Common Crawl上的300维单词向量组成。

 # Use the following command to install spaCy > pip install -U spacy OR > conda install -c conda-forge spacy # Download the 
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值