【Embedding合集】常用的序列数据(SentenceEmbedding)实现方案
在建模过程中往往存在很多序列型特征,如电商领域用户最近加购的商品序列,游戏领域用户最近充值金额序列等等,对于这部分序列型特征,主要有两种解决方案,一是直接使用doc2Vec这类直接得到整个句子的向量的方案,另一种常见的解决方案就是对每个item进行Embedding之后再生成完整序列的Embedding,这个过程正好能对应到NLP领域从WordEmbedding生成SentenceEmbedding的过程,本文将对后一种方案的几种常用实现方案进行详细介绍。
文章目录
一、平均词向量(Average Word Embeddings)
计算句子中所有词向量的平均值是一种最简单且常用的实现方案,具体来说,这种实现方案的实现步骤包括:
- 将句子中的每个词映射到其对应的词嵌入(例如使用预训练的Word2Vec或GloVe模型)。
- 计算这些向量的算术平均值。
这种方法最大的优点是简单直观,但缺点同样明显,那就是忽略了词序和句子中的语法结构,可能导致不同的句子具有相似的嵌入表示,最终导致计算结果不准确的问题。
推荐一个非常实用的Sentence Embedding实现算法包Fast_Sentence_Embeddings:https://github.com/oborchers/Fast_Sentence_Embeddings
from gensim.models import Word2Vec
from nltk.tokenize import word_tokenize
# 准备语料库(示例)
corpus = [
"This is a cat",
"This is a dog",
"The cat is black",
"The dog is brown"
]
# 分词和小写化
tokenized_corpus = [word_tokenize(sentence.lower()) for sentence in corpus]
# 训练 Word2Vec 模型
model = Word2Vec(