Word2vec
Word2vec 是 Word Embedding 方式之一,属于 NLP 领域。它是将词转化为 【可计算】【结构化】的向量的过程。本文将讲解 Word2vec 的原理和优缺点。
这种方式在 2018 年之前比较流行,但是随着 BERT、GPT2.0 的出现,这种方式已经不算效果最好的方法了。
一、什么是 Word2vec?
1、什么是 Word Embedding?
在说 Word2vec 之前,需要先了解一个 Word Embedding。它就是将【不可计算】【非结构化】的词转化为【可计算】【结构化】的向量。
这一步解决的是 "将现实问题转化为数学问题",是人工智能非常关键的一步。
了解更多,可以看这篇文章:《python自然语言处理—词嵌入 | Word embedding》
将现实问题转化为数学问题只是第一步,后面还需要求解这个数学问题。所以 Word Embedding 的模型本身并不重要,重要的是生成出来的结果——词向量。因为在后续的任务中会直接用到这个词向量。
2、什么是 Word2vec?