深度特征提取方法_基于深度学习的文本数据特征提取方法之Glove和FastText

最新推荐文章于 2024-06-18 19:51:45 发布

weixin_39996035

最新推荐文章于 2024-06-18 19:51:45 发布

阅读量455

点赞数

文章标签：深度特征提取方法

本文介绍了Glove和FastText两种基于深度学习的文本数据特征提取方法。Glove通过全局词-词共现矩阵进行无监督学习，而FastText则利用字符n-gram克服罕见单词问题。实验显示，这些模型能有效应用于机器学习任务，如文档聚类，且FastText在某些场景下优于Word2Vec。

摘要由CSDN通过智能技术生成

作者：Dipanjan (DJ) Sarkar

编译：ronghuaiyang

导读

今天接着昨天的内容，给大家介绍Glove模型和FastText模型，以及得到的词向量如何应用在机器学习任务里。

(书接上回)

GloVe模型

GloVe模型指的是全局向量模型，是一种无监督学习模型，可以获得类似于Word2Vec的dense词向量。然而，技术是不同的，训练是在一个聚合的全局词-词共现矩阵上做的，可以得到具有有意义的子结构的向量空间。这个方法是斯坦福大学的Pennington等人发明的。

我们不会在这里从头开始详细介绍模型的实现。我们在这里会保持简单，并试图理解GloVe模型背后的基本概念。我们已经讨论了基于计数的矩阵分解的方法，如LSA以及预测的方法，如Word2Vec。文章称，目前，这两个方法都存在明显的缺陷。像LSA这样的方法可以有效地利用统计信息，但在单词类比任务上，比如我们如何发现语义相似的单词，它们的表现相对较差。像skip-gram这样的方法可能在类比任务上做得更好，但是它们在全局水平上没有很好地利用语料库的统计数据。

GloVe模型的基本方法是首先创建一个由(单词，上下文)对组成的巨大单词上下文共现矩阵，这样的话，该矩阵中的每个元素表示的是这个单词与上下文一起出现的频率(可以是单词序列)。接下来的想法是应用矩阵分解来逼近这个矩阵，如下图所示。

考虑Word-Context (WC)矩阵、Word-Feature (WF)矩阵和Feature-Context (FC)矩阵，我们尝试对WC = WF x FC进行因式分解，将WF和FC相乘，重构WC。为此，我们使用一些随机权重初始化WF和FC，并尝试将它们相乘以得到WC'(WC的近似形式)，并度量它与WC的距离。我们多次使用随机梯度下降(SGD)来降低误差。最后，单词特征矩阵(WF)为每个单词提供单词嵌入，其中F可以预先设置为特定数量的维度。需要记住的非常重要的一点是，Word2Vec和GloVe模型的工作原理非常相似。这两种方法的目的都是建立一个向量空间，在这个空间中，每个单词的位置都受到其相邻单词的上下文和语义的影响。Word2Vec以单词共现对的本地个别示例开始，GloVe以语料库中所有单词的全局聚合共现统计数据开始。

将Glove特征应用于机器学习任务

让我们尝试使用基于GloVe的嵌入式技术来完成文档聚类任务。非常流行的spacy框架具有利用基于不同语言模型来得到GloVe嵌入。你还可以获得预先训练好的词向量，并根据需要使用gensim或spacy加载它们。我们将首先安装spacy并使用en_vectors_web_lg模型，该模型由训练在Common Crawl上的300维单词向量组成。

 # Use the following command to install spaCy > pip install -U spacy OR > conda install -c conda-forge spacy # Download the

最低0.47元/天解锁文章

weixin_39996035

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
深度特征提取方法_基于深度学习的文本数据特征提取方法之Glove和FastText

作者：Dipanjan (DJ) Sarkar编译：ronghuaiyang导读今天接着昨天的内容，给大家介绍Glove模型和FastText模型，以及得到的词向量如何应用在机器学习任务里。(书接上回)GloVe模型GloVe模型指的是全局向量模型，是一种无监督学习模型，可以获得类似于Word2Vec的dense词向量。然而，技术是不同的，训练是在一个聚合的全局词-词共现矩阵上做的，可以得到具有有...
复制链接

扫一扫