【Embedding合集】常用的序列数据(SentenceEmbedding)实现方案

妙龄少女郭德纲

已于 2024-05-29 14:21:41 修改

阅读量858

点赞数 47

分类专栏： Embedding合集文章标签： embedding 数据挖掘机器学习深度学习算法 nlp

于 2024-05-27 15:36:45 首次发布

本文链接：https://blog.csdn.net/LUyan10086/article/details/139239232

版权

【Embedding合集】常用的序列数据(SentenceEmbedding)实现方案

在建模过程中往往存在很多序列型特征，如电商领域用户最近加购的商品序列，游戏领域用户最近充值金额序列等等，对于这部分序列型特征，主要有两种解决方案，一是直接使用doc2Vec这类直接得到整个句子的向量的方案，另一种常见的解决方案就是对每个item进行Embedding之后再生成完整序列的Embedding，这个过程正好能对应到NLP领域从WordEmbedding生成SentenceEmbedding的过程，本文将对后一种方案的几种常用实现方案进行详细介绍。

文章目录

【Embedding合集】常用的序列数据(SentenceEmbedding)实现方案
一、平均词向量（Average Word Embeddings）
二、加权平均词向量（TF-IDF）
三、SIF（Smooth Inverse Frequency）加权平均词向量
四、uSIF（Unsupervised Smooth Inverse Frequency）加权平均词向量
总结

一、平均词向量（Average Word Embeddings）

计算句子中所有词向量的平均值是一种最简单且常用的实现方案，具体来说，这种实现方案的实现步骤包括：

将句子中的每个词映射到其对应的词嵌入（例如使用预训练的Word2Vec或GloVe模型）。
计算这些向量的算术平均值。

这种方法最大的优点是简单直观，但缺点同样明显，那就是忽略了词序和句子中的语法结构，可能导致不同的句子具有相似的嵌入表示，最终导致计算结果不准确的问题。

推荐一个非常实用的Sentence Embedding实现算法包Fast_Sentence_Embeddings：https://github.com/oborchers/Fast_Sentence_Embeddings

from gensim.models import Word2Vec
from nltk.tokenize import word_tokenize

# 准备语料库（示例）
corpus = [
    "This is a cat",
    "This is a dog",
    "The cat is black",
    "The dog is brown"
]

# 分词和小写化
tokenized_corpus = [word_tokenize(sentence.lower()) for sentence in corpus]

# 训练 Word2Vec 模型
model = Word2Vec(

最低0.47元/天解锁文章

妙龄少女郭德纲

关注

47
点赞
踩
29

收藏

觉得还不错? 一键收藏
0
评论
【Embedding合集】常用的序列数据(SentenceEmbedding)实现方案

在建模过程中往往存在很多序列型特征，如电商领域用户最近加购的商品序列，游戏领域用户最近充值金额序列等等，对于这部分序列型特征，主要有两种解决方案，一是直接使用doc2Vec这类直接得到整个句子的向量的方案，另一种常见的解决方案就是对每个item进行Embedding之后再生成完整序列的Embedding，这个过程正好能对应到NLP领域从WordEmbedding生成SentenceEmbedding的过程，本文将对后一种方案的几种常用实现方案进行详细介绍。计算句子中所有词向量的平均值是一种最简单且常用的实现
复制链接

扫一扫

专栏目录