自然语言处理之语言模型（一）——NLP中的各种嵌入Embedding概述（词嵌入Word Embedding的基本分类）

最新推荐文章于 2024-05-18 00:12:17 发布

LoveMIss-Y

最新推荐文章于 2024-05-18 00:12:17 发布

阅读量2.1k

点赞数 2

分类专栏：自然语言处理词向量Word2Vec 文章标签：自然语言处理NLP 词向量Word2vec 词袋模型神经网络语言模型 textRNN textCNN等

本文链接：https://blog.csdn.net/qq_27825451/article/details/101675142

版权

自然语言处理同时被 2 个专栏收录

1 篇文章 0 订阅

订阅专栏

词向量Word2Vec

1 篇文章 0 订阅

订阅专栏

前言：我们常常会看见很多的概念，Word embedding,CBOW,n-gram,NNLM,RNNLM等等一系列的概念，很容易傻傻分不清楚，本文对NLP中的各种嵌入做了一个归纳，出书个人归纳，不正确地方还请指正。

一、NLP与词嵌入(Word Embedding)

1.1 离散表示

（1） One-hot表示

（2）词袋模型 Bag of Word（BOW）

（3）TF-IDF

（4）n-gram模型：基于统计的统计语言模型

1.2 分布式表示

（1）共现矩阵：共现矩阵顾名思义就是共同出现的意思，词文档的共现矩阵主要用于发现主题(topic)，用于主题模型，如LSA（Latent Semantic Analysis (LSA)）即，潜在语义分析。

1.3 神经网络表示

（1）NNLM：经典的神经网络语言模型

（2）RNNLM：循环神经网络语言模型

（3）Word2Vec：这是最重要的，最普遍的语言模型，又分为两个类型，分别是：

CBOW：continous bag of words

Skip Gram

而且这两个方法又有基于不同的优化方法，如Negative Sampling（负采样）和Hierarchical Softmax的方法 （4）sense2vec：Word2vec的推广，着重考虑了词语的多义性

（5）GloVe模型：GloVe的全称叫Global Vectors for Word Representation，即全局向量词嵌入，它是一个基于全局词频统计（count-based & overall statistics）的词表征（word representation）工具

（6）fastText：子词嵌入。

1.4 一些非常经典的模型案例

（1）TextRNN。textRNN指的是利用RNN循环神经网络解决文本分类问题

（2）TextCNN 。textCNN指的是利用一维卷积CNN神经网络解决文本分类问题

1.5 比较高深复杂一些的模型以及机制

（1）序列到序列模型(seq2seq)
（2）注意力机制(Attention Mechanism)
（3）Transformer模型

1.6 当前成熟的语言模型

1. BERT
2. GPT
3. GPT-2
4. Transformer-XL
5. XLNet
6. XLM
7. RoBERTa
8. DistilBERT
不断更新中... ...

这个地方只是按照我个人的理解，概述性的说明一下我个人认为的分类，后面针对每一个类别会详细用一篇文章来说明。

LoveMIss-Y

关注

2
点赞
踩
12

收藏

觉得还不错? 一键收藏
0
评论
自然语言处理之语言模型（一）——NLP中的各种嵌入Embedding概述（词嵌入Word Embedding的基本分类）

前言：我们常常会看见很多的概念，Word embedding,CBOW,n-gram,NNLM,RNNLM等等一系列的概念，很容易傻傻分不清楚，本文对NLP中的各种嵌入做了一个归纳，出书个人归纳，不正确地方还请指正。一、NLP与词嵌入(Word Embedding) 1.1 离散表示（1）One-hot表示（2）词袋模型 Bag of ...
复制链接

扫一扫