【Embedding合集】常用的序列数据(SentenceEmbedding)实现方案

【Embedding合集】常用的序列数据(SentenceEmbedding)实现方案

在建模过程中往往存在很多序列型特征,如电商领域用户最近加购的商品序列,游戏领域用户最近充值金额序列等等,对于这部分序列型特征,主要有两种解决方案,一是直接使用doc2Vec这类直接得到整个句子的向量的方案,另一种常见的解决方案就是对每个item进行Embedding之后再生成完整序列的Embedding,这个过程正好能对应到NLP领域从WordEmbedding生成SentenceEmbedding的过程,本文将对后一种方案的几种常用实现方案进行详细介绍。



一、平均词向量(Average Word Embeddings)

计算句子中所有词向量的平均值是一种最简单且常用的实现方案,具体来说,这种实现方案的实现步骤包括:

  • 将句子中的每个词映射到其对应的词嵌入(例如使用预训练的Word2Vec或GloVe模型)。
  • 计算这些向量的算术平均值。

这种方法最大的优点是简单直观,但缺点同样明显,那就是忽略了词序和句子中的语法结构,可能导致不同的句子具有相似的嵌入表示,最终导致计算结果不准确的问题。

推荐一个非常实用的Sentence Embedding实现算法包Fast_Sentence_Embeddings:https://github.com/oborchers/Fast_Sentence_Embeddings

from gensim.models import Word2Vec
from nltk.tokenize import word_tokenize

# 准备语料库(示例)
corpus = [
    "This is a cat",
    "This is a dog",
    "The cat is black",
    "The dog is brown"
]

# 分词和小写化
tokenized_corpus = [word_tokenize(sentence.lower()) for sentence in corpus]

# 训练 Word2Vec 模型
model = Word2Vec(
  • 47
    点赞
  • 29
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值