文章目录
前言
一、嵌入向量是什么
嵌入向量是将词汇与实数值的向量进行映射的一种技术。在自然语言处理任务中,嵌入向量常用于将词汇转换为连续的向量表示,以便计算机能够更好地理解和处理文本数据
二、Glove嵌入向量
GloVe(Global Vectors for Word Representation)
是一种预训练的词嵌入模型,它是通过对大规模文本语料库中的词汇共现统计信息进行训练得到的。在训练过程中,词汇是从给定的语料库中提取出来,并且 这些词汇是固定的
,即在训练过程中,词汇表是确定的,不会根据新的文本数据进行动态调整。
glove.6B.50d.txt
:这是使用6亿个标记的英文维基百科文本数据训练得到的GloVe嵌入向量文件。它包含了50维的词嵌入向量,适用于较小规模的NLP任务。glove.6B.100d.txt
:与上述文件相似,这也是使用6亿个标记的英文维基百科文本数据训练得到的GloVe嵌入向量文件,但它包含了100维的词嵌入向量,因此更丰富地表达了词汇的语义信息。