![](https://img-blog.csdnimg.cn/20201014180756754.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Embedding合集
文章平均质量分 86
分箱工作中常用的一些Embedding知识
妙龄少女郭德纲
个人公众号 是十三不是四十三 ,分享一些算法和大数据相关的知识~
展开
-
【Embedding合集】文本数据常用Embedding实现方案
对文本数据进行嵌入(Embedding)并计算它们之间的相似度是自然语言处理(NLP)中的一项基础任务,广泛应用于信息检索、文本聚类、推荐系统等领域。常用的文本嵌入的方案有词袋模型、Word2Vec、GloVe、FastText以及Bert等。目前最常用的还是Word2Vec,简单且高效,在深度学习领域后续需要进行某些文本分类、情感分析等任务时用Bert,FastText一般是资源有效数据量大并且文本较为复杂时使用。原创 2024-05-15 11:52:49 · 1011 阅读 · 0 评论 -
风控图算法之Graph Embedding
图嵌入(Graph Embedding)是一种将图结构中的节点或边映射到低维向量空间的技术,旨在保留图结构的信息并捕捉节点之间的关系。在风控领域,图嵌入技术可以用于构建复杂的关系网络,在识别欺诈行为、降低风险等方面发挥重要作用。在风控领域,数据通常呈现出复杂的关系网络,比如金融交易网络、社交网络等。这些网络由节点和边组成,节点代表实体(如用户、账户、交易),边代表实体之间的关系(如交易流向、用户关系等)。图嵌入技术通过将节点映射到低维向量空间来表征这些复杂网络。原创 2024-05-21 10:08:26 · 882 阅读 · 0 评论 -
风控图算法Graph Embedding(DeepWalk&Node2Vec)代码实现
在上一篇中我们简单介绍了常用的Graph Embedding算法,今天来对其中较为常用的两种算法——DeepWalk和Node2Vec进行python代码实现。Karate Club 是一个 Python 算法包,专门用于图形分析和图形挖掘。它提供了一系列经典和先进的图形聚类和图形嵌入算法,旨在帮助研究人员和数据科学家处理和分析各种类型的图形数据。该算法包的名字取自 Zachary’s Karate Club,这是一个关于社交网络的著名案例,用于研究社区结构和社交网络动态性。Karate Club 旨在为用原创 2024-05-22 09:58:35 · 845 阅读 · 0 评论 -
【Embedding合集】常用的序列数据(SentenceEmbedding)实现方案
在建模过程中往往存在很多序列型特征,如电商领域用户最近加购的商品序列,游戏领域用户最近充值金额序列等等,对于这部分序列型特征,主要有两种解决方案,一是直接使用doc2Vec这类直接得到整个句子的向量的方案,另一种常见的解决方案就是对每个item进行Embedding之后再生成完整序列的Embedding,这个过程正好能对应到NLP领域从WordEmbedding生成SentenceEmbedding的过程,本文将对后一种方案的几种常用实现方案进行详细介绍。计算句子中所有词向量的平均值是一种最简单且常用的实现原创 2024-05-27 15:36:45 · 844 阅读 · 0 评论 -
【Embedding合集】深度模型实现对序列数据的Embedding(SentenceEmbedding)
通过实现一个基于LSTM的自编码器来实现对序列数据的Embedding,该自编码器的主要目的是学习输入序列的有效表示,然后重构输出,使输出尽可能接近输入。自编码器通常用于降维、特征提取、去噪等任务中。上述实现中的LSTM只是一个例子,模型结构、类型不固定(如RNN、GRU等等),但是本质思想都是实现一个encode-decoder的模型,最终取encoder的深度时序模型的最后一个时间步的输出作为编码结果应用到后续建模过程中,深度学习的一层一层的隐藏层实际上就是一个一个特征提取器,越靠近输出层的隐层代表了原创 2024-05-28 16:05:24 · 682 阅读 · 0 评论 -
【Embedding合集】推荐系统/风控领域中动态连续型不定长序列数据处理方案
在推荐系统或是风控领域都存在这样一类动态连续型序列数据,如用户最近一个月消费记录,最近半年还款记录等等,这些序列数据的每一个元素都是连续型的数字,并且长度不定(每个用户消费的笔数都不一样),但这类动态连续型不定长序列数据又往往能够捕捉用户随时间变化的偏好,本文将针对这类数据提出三种工业界较为常用的解决方案。将不定长序列数据通过填充(padding)或截断(slicing)等方法转换为等长序列后,再将其输入自编码器中以实现嵌入(Embedding)。随后,将嵌入后的数据输入至模型中进行建模。此外,嵌入后的数据原创 2024-05-29 13:27:25 · 602 阅读 · 0 评论