NLP学习之词向量模块

最新推荐文章于 2024-09-03 10:01:10 发布

期待脱离苦海的小叮当

最新推荐文章于 2024-09-03 10:01:10 发布

阅读量190

点赞数

分类专栏： NLP

本文链接：https://blog.csdn.net/weixin_42027200/article/details/111996945

版权

NLP 专栏收录该内容

8 篇文章 0 订阅

订阅专栏

word2vec和fastText对比有什么区别？（word2vec vs fastText）
1）都可以无监督学习词向量， fastText训练词向量时会考虑subword；

2） fastText还可以进行有监督学习进行文本分类，其主要特点：

结构与CBOW类似，但学习目标是人工标注的分类结果；
采用hierarchical softmax对输出的分类标签建立哈夫曼树，样本中标签多的类别被分配短的搜寻路径；
引入N-gram，考虑词序特征；
引入subword来处理长词，处理未登陆词问题；
elmo、GPT、bert三者之间有什么区别？（elmo vs GPT vs bert）
之前介绍词向量均是静态的词向量，无法解决一次多义等问题。下面介绍三种elmo、GPT、bert词向量，它们都是基于语言模型的动态词向量。下面从几个方面对这三者进行对比：

（1）特征提取器：elmo采用LSTM进行提取，GPT和bert则采用Transformer进行提取。很多任务表明Transformer特征提取能力强于LSTM，elmo采用1层静态向量+2层LSTM，多层提取能力有限，而GPT和bert中的Transformer可采用多层，并行计算能力强。

（2）单/双向语言模型：

GPT采用单向语言模型，elmo和bert采用双向语言模型。但是elmo实际上是两个单向语言模型（方向相反）的拼接，这种融合特征的能力比bert一体化融合特征方式弱。
GPT和bert都采用Transformer，Transformer是encoder-decoder结构，GPT的单向语言模型采用decoder部分，decoder的部分见到的都是不完整的句子；bert的双向语言模型则采用encoder部分，采用了完整句子。