less97-CSDN博客

转载 Word2vec

Word2vec的出现改变了OneHot的高维稀疏的困境，自此之后各种xxx2vec如雨后春笋般冒了出来，用来解决各种嵌入式编码，包括后来的各种Embedding方式其实很多本质上都是Word2vec的延伸和优化。本主题文章将会分为三部分介绍，每部分的主题为： word2vec的前奏-统计语言模型（点击阅读） word2vec详解-风华不减其他xxx2vec论文和应用介绍 1、背景介绍word2vec 是Google 2013年提出的用于计算词向量的工具，在论文Eff

2021-04-27 13:53:57 533

转载 item2vec

本主题文章将会分为三部分介绍，每部分的主题为： word2vec的前奏-统计语言模型 word2vec详解-风华不减其他xxx2vec论文和应用介绍 Item2vec：论文《Item2Vec：Neural Item Embedding for Collaborative Filtering》来自于微软2016年发表在RecSys上的，因为word2vec和item2vec是在做推荐系统过程中比较常用的两个算法，所以该部分先介绍item2vec，然后再展开其他xxx2.

2021-04-27 11:04:04 599

转载 Doc2vec

Doc2vec是Mikolov2014年提出的论文，也被成为Paragraph Vector，下面的内容分为三方面进行介绍，分别为： Doc2vec的原理 Doc2vec在推荐系统中的应用启发 Doc2vec的算法实现 1、Doc2vec的算法原理如何学习得到Word的Vector表示一个非常流行的学习Word Vector的方法如下图所示：Doc2vec的两种算法Doc2vec其实包含了两种算法： PV-DM（Distributed Mem...

2021-04-27 10:56:35 1027

转载 Sentence2vec

万物皆可Embedding系列会结合论文和实践经验进行介绍，前期主要集中在论文中，后期会加入实践经验和案例，目前已更新：万物皆可Vector之语言模型：从N-Gram到NNLM、RNNLM 万物皆可Vector之Word2vec：2个模型、2个优化及实战使用 Item2vec中值得细细品味的8个经典tricks和thinks Doc2vec的算法原理、代码实现及应用启发 Sentence2Vec & GloVe 算法原理、推导与实现 Sentenc

2021-04-27 10:23:06 1145

转载特征设计

特征设计是整个特征工程中最消耗时间的一步，但其却也是十分重要的一步。不同领域的特征在设计上也会有所区别（当然也存在相同的地方），这时候需要结合领域知识进行思考和总结，制定适合自己业务的特征，然后可以进行相关的特征可用性评估，决定开发哪些基础的特征。业务理解在具体实践中，我们使用的特征通常分为四大维度：用户维度特征事物维度特征类别维度特征组合属性特征对于用户维度的特征，其可以划分为：客观属性：即事物本身的属性，不因人的看法而改变主观

2021-04-26 15:39:47 931

转载特征获取

基础数据是特征的基石，因此在考虑特征构建的时候一定要注意基础数据的完备性，同时获取特征之后特征的命名一定要规范，特征的存储设计也一定要符合自己的业务需求。特征获取特征往往是依赖于基础数据而存在的，这里的基础数据包括用户注册时填写的内容信息，平台中内容上传时填写的属性信息，用户在平台内产生的各种行为信息。而后期我们所有构建的特征都是依赖于这三大类数据，用户维度特征依赖用户内容信息，事物维度特征依赖事物属性信息，用户和事物之间的交互特征依赖于用户的各种行为，像一些经过更高层次的加工信息（比如embe.

2021-04-26 15:36:54 362

转载数据清洗

特征工程的完整流程是：特征设计 -> 特征获取 -> 特征处理 -> 特征存储 -> 特征监控。前边介绍了那么多，相当于是对特征设计、特征获取、特征存储进行了说明，而特征工程中最重要的环节则是特征处理。特征处理中还包括：数据清洗、特征生成、特征拼接、特征处理、特征转换、特征选择。本篇主要介绍数据清洗、特征生成、特征拼接数据清洗从特征工程角度讲，数据清洗是特征工程的前置阶段（但是也会贯穿整个数据应用过程），其本义是对数据进行重新的审查和校验，目的在于删除重复信息、纠正存在的错误

2021-04-26 15:30:22 665

转载类别特征

特征工程的完整流程是：特征设计 -> 特征获取 -> 特征处理 -> 特征存储 -> 特征监控。本篇主要介绍如何对类别特征进行处理。类别特征即特征的属性值是一个有限的集合，常见几种处理方法为：序号编码 One-Hot（独热）编码哑变量（虚拟）编码二进制编码效应编码哈希编码统计学中常用编码 1、序号编码序号编码（Label Encoding）即通过数字序号和值进行一一映射达到编码的目的。但它适用于

2021-04-26 15:25:44 1448

转载连续特征

连续特征离散化可以使模型更加稳健，比如当我们预测用户是否点击某个商品时，一个点击该商品所属类别下次数为100次和一个点击次数为105次的用户可能具有相似的点击行为，有时候特征精度过高也可能是噪声，这也是为什么在LightGBM中，模型采用直方图算法来防止过拟合。连续特征经常是用户或者事物对应一些行为的统计值，常见的处理方法包括：归一化标准化离散化缺失值处理这里要特别注意一下归一化和标准化的区别，在平常的使用中，很多同学都容易把这两者的概念混淆，因为两者的

2021-04-26 15:20:15 1270

转载特征交叉

组合特征也叫特征交叉（Feature Crosses），即不同类型或者不同维度特征之间的交叉组合，其主要目的是为了弥补CTR场景中早期的模型无法有效的进行特征组合而产生的想法和实践，随着算法模型的进步，虽然一些机器学习排序模型（GBDT+LR、FM等）和深度学习排序模型能够捕获特征之间的联系，但是前期仍然会生成一些组合特征，比如用户在某些类别下的行为统计，性别下的数据统计等。日常工作场景中的特征往往都是以用户和其对应的属性作为出发点，然后和物品对应的属性特征或者上下文特征进行交叉组合，比如：用户

2021-04-26 15:10:13 2332

转载词袋模型

文本特征在内容平台内使用的场景和方式更多，但并不等于说其在其他形式的平台中无用户之地，比如：电商平台中的商品标题、商品介绍、评论等，商品平台中视频标题、视频介绍、评论等。利用文本数据可以做的事情很多，包括但不局限于：关键词提取、文本分类、文本聚类、文本情感分析、文本离散表示、文本生成等。在推荐领域，通常是基于文本内容进行挖掘，从而提取出有效特征来表示物品，可以在CTR模型中使用。当然上边提到的主要是如何在CTR模型中利用文本内容，在召回或者物品画像也可以对文本内容进行挖掘，这里不再赘述，在后续的召

2021-04-26 15:06:40 1012

转载文本特征处理

文本特征在内容平台内使用的场景和方式更多，但并不等于说其在其他形式的平台中无用户之地，比如：电商平台中的商品标题、商品介绍、评论等，商品平台中视频标题、视频介绍、评论等。利用文本数据可以做的事情很多，包括但不局限于：关键词提取、文本分类、文本聚类、文本情感分析、文本离散表示、文本生成等。在推荐领域，通常是基于文本内容进行挖掘，从而提取出有效特征来表示物品，可以在CTR模型中使用。当然上边提到的主要是如何在CTR模型中利用文本内容，在召回或者物品画像也可以对文本内容进行挖掘，这里不再赘述，在后续的召

2021-04-26 14:35:47 1929

转载特征归一化

写在前面Feature scaling，常见的提法有“特征归一化”、“标准化”，是数据预处理中的重要技术，有时甚至决定了算法能不能work以及work得好不好。谈到feature scaling的必要性，最常用的2个例子可能是：特征间的单位（尺度）可能不同，比如身高和体重，比如摄氏度和华氏度，比如房屋面积和房间数，一个特征的变化范围可能是[1000, 10000]，另一个特征的变化范围可能是[−0.1,0.2]，在进行距离有关的计算时，单位的不同会导致计算结果的不同，尺度大的特征会起决定性作用，

2021-04-26 10:36:03 2190

转载特征工程

特征工程可以解决什么样的问题？特征工程是一个非常重要的课题，是机器学习中不可缺少的一部分，但是它几乎很少出现于机器学习书本里面的某一章。在机器学习方面的成功很大程度上在于如果使用特征工程。在机器学习中，经常是用一个预测模型（线性回归，逻辑回归，SVD等）和一堆原始数据来得到一些预测的结果，人们需要做的是从这堆原始数据中去提炼较优的结果，然后做到最优的预测。这个就包括两个方面，第一就是如何选择和使用各种模型，第二就是怎么样去使用这些原始的数据才能达到最优的效果。那么怎么样才能够获得最优的结果呢？贴上一

2021-04-26 09:50:16 254

转载正负样本

“目前推荐系统中给用户进行推荐大部分都是基于CTR预估来做的，CTR预估中很重要的一环便是正负样本的选择，那么不同业务场景下我们如何定义正负样本、如何控制正负样本的比例、正负样本选择有哪些技巧？虽然这些只是模型训练中的一环，但却也扮演着重要的角色。分析业务场景不同业务场景下对应的kpi也是不同的，那么模型训练的目标也是不一致的，比如kpi是点击率，那么模型训练的目的就是增加推荐的准确性，提升用户的准确率；如果kpi是交易额，那么模型训练的目的就要考虑用户的下单率和物品单价，不能仅仅考虑点击。

2021-04-23 17:23:48 1700

转载模型训练

1、总诀式——定义问题What，How，Why。首先要弄清楚自己要干什么，然后调研相关的技术确定怎么解决问题，最后反思自己为什么要用这个方案解决这个问题，有没有更好的思路方法。以电商推荐系统中的点击率预估为例。首先明确我们的目标是优化线上的商品点击率，其次可以通过点击率预估算法来离线训练模型，线上进行预估，将点击率较高的商品推荐给用户，这样做的原因是点击率预估是目前业界比较成熟的解决方案，且能够取得不错的效果，如果在实践中遇到问题，也便于解决问题。当然也会有一些其他的方案，比如通过深度学习来做CTR

2021-04-23 17:21:50 1529

转载机器学习

传统机器学习推荐模型演化传统机器学习推荐模型演化简单讲，传统推荐模型的发展主要由以下几部分组成协同过滤算法族即上图中蓝色部分，协同过滤是推荐系统的首选模型，从物品相似度和用户相似角度出发，衍生出了ItemCF和UserCF两种算法。为了使协同过滤衍生出矩阵分解模型（Matrix Factorization，MF），并发展出矩阵分解的各分支模型。逻辑回归模型族协同过滤仅利用用户和物品之间显式或者隐式反馈信息，逻辑回归能够利用和融合更多用户、物品和上下文特征。从LR模型衍生出的各种模

2021-04-23 17:10:04 189

转载评估方法

推荐系统覆盖于生活中的各个方面，无论是电商购物，还是内容咨询，都离不开它的身影，作为一名推荐算法从业者，深知做好推荐系统的必要性，那么做好推荐系统的评估就显得至关重要了，其主要体现在：推荐系统评估所采用的指标直接决定了推荐系统的优化方向是否客观合理推荐系统评估是机器学习团队与其他团队沟通合作的接口性工作推荐系统评估指标的选取直接选定了推荐系统是否符合公司的商业目标和发展愿景做好推荐系统的评估的前提是必须要搞明白评估指标有哪些？分别适用于什么场景？怎么选择？离线评估的

2021-04-23 15:51:18 1093

转载排序方法

Learning to rank（LTR，L2R）也叫排序学习，泛指机器学习中任何用户排序的技术，是指一类监督学习（Supervised Learning）排序算法。LTR被应用在很多领域，比如信息检索（Information Retrieval）、推荐系统（Recommend System）、搜索引擎（Search Engine）。LTR框架一般来讲，根据机器学习的“四大支柱”，LTR分为三类方法：Pointwise Approach、Pairwise Approach、Listwise Appr

2021-04-23 15:30:41 386

转载深度学习

2021-04-22 16:16:14 126

转载 Embedding技术

1、Embedding 是什么Embedding是用一个低维稠密的向量来“表示”一个对象（这里的对象泛指一切可推荐的事物，比如商品、电影、音乐、新闻等），同时表示一词意味着Embedding能够表达相应对象的某些特征，同时向量之间的距离也能够反应对象之间的相似性。在词向量空间内，甚至完全不知道一个词的向量的情况下，仅靠语义关键加词向量运算就可以推荐出这个词的词向量。Embedding技术对于深度学习推荐系统的重要性推荐场景中大量使用one-hot编码对类别特征、ID类特征进行编码，导致向

2021-04-22 15:47:31 5284 1

转载稀疏自编码

稀疏自编码自编码器（Auto-Encoder）顾名思义，即可以利用自身的高阶特征编码自己。自编码器也是一种神经网络，他的输入和输出是一致的，他借助稀疏编码的思想，目标是使用稀疏的一些高阶特征重新组合来重构自己。因此他的特征十分明显：期望输入与输出一致希望使用高阶特征来重构自己，而不只是复制像素点自编码器的输入节点和输出节点的数量是一致的，但如果只是单纯的逐个复制输入节点则没有意义，像前面提到的，自编码器通常希望使用少量稀疏的高维特征来重构输入，所以加入几种限制：（1

2021-04-22 15:27:08 2481

转载行为画像

“用户画像在推荐系统中扮演着重要的角色，这篇文章主要是阅读《用户网络行为画像》一书的读书摘要，该书较老，感觉更加适合产品经理或者不懂推荐的人看，如果读者本身就是一个推荐从业者的话，只需要看书的前半部分，对用户画像有个本质的理解即可，后半部分可忽略。用户描述分为三种情况用户画像（User Portrait），更倾向于对同一类用户进行不同维度的刻画用户角色（User Persona），更倾向于业务系统中不同用户的角色区分用户属性（User Profile），更倾向于对用户

2021-04-22 15:03:50 1167

转载混合推荐

什么是混合推荐系统混合推荐系统的含义海量数据推荐系统中通常存在三部分：在线系统（Online）直接与用户进行交互，具有高性能、高可用的特性，通常利用缓存系统，处理热门请求的重复计算近在线系统（Nearline）接受在线系统的请求，执行比较复杂的推荐算法，缓存在线系统的结果，并及时收集用户的反馈，快速调整结果离线系统（Offline）利用海量用户的行为日志进行挖掘，进行高质量的推荐，通常运算周期长，资源消耗大

2021-04-22 14:43:57 404

转载基于DNN的推荐

深度学习在推荐中发挥的作用：能够直接从内容中提取特征，表征能力强容易对噪声数据进行处理，抗噪能力强可以使用循环神经网络对动态或者序列数据进行建模可以更加准确的学习user和item的特征基于DNN的推荐算法推荐系统和通用搜索排序问题共有的一大挑战为同时具备记忆能力和泛化能力。记忆能力可以解释为学习那些经常共同出现的特征，发现历史数据中存在的共现性（提升推荐的准确性）泛化能力则基于迁移相关性，探索之前几乎没有出现过的新特征组合（提升推荐

2021-04-22 11:33:21 1010

转载推荐系统

推荐系统中的特征工程特征的本质其实是对某个行为过程相关信息的抽象表达。推荐系统中的常用特征：1、用户行为数据包括显性反馈数据（explicit feedback）和隐形反馈数据（implicit feedback）。用户行为类特征得两种处理方式：将代表用户行为的物品id序列转换成multi-hot编码，将其作为特征向量预先训练好物品的Embedding向量，再通过平均或者类似于DIN模型注意力机制的方法生成历史行为的Embedding向量，将其作为特征向量。 2、

2021-04-22 10:46:02 469

转载多目标学习

作者在《深度学习在推荐系统中的应用》这篇文章中对YouTube在2016年提出的一个两阶段的深度学习推荐模型进行了详细介绍，该模型是深度学习在推荐系统中的应用最经典的模型之一。后面（去年）YouTube又提出了一个针对推荐排序阶段的多任务深度学习模型，这即是这篇文章我们要介绍的。在本篇文章中，我们从问题背景及算法方案简介、排序算法模型整体框架、排序算法模型核心模块、排序模型核心亮点解读、建模过程中的挑战、模型未来优化的方向等6个方面来介绍这篇非常有学习参考价值的文章。跟16年那篇文章一样，这篇文章也是难

2021-04-21 15:34:35 1693

转载 DSSM模型

本文主要用于记录DSSM模型学习期间遇到的问题及分析、处理经验。先统领性地提出深度学习模型训练过程的一般思路和要点，再结合具体实例进行说明。全文问题和解决方案尽可能具备通用性，同样适用于一般深度学习模型的训练。深度学习模型训练要素概图补充：目标函数一般包含经验风险(损失函数或代价函数)和结构风险(正则化项)，此处仅指损失函数。训练深度学习模型，主要需要考虑四个方面(受限于当前认知水平，仅总结了四个方面)，分别是：数据处理，包含数据清洗和分布；模型结构，包括网络层结构设计和

2021-04-21 11:53:38 640

转载直播推荐

本文根据李波老师DTCC大会分享内容整理而成，将首先介绍陌陌直播业务和推荐系统的整体架构，然后对用户及主播的多角度 Embedding 表征学习、多预估目标的 Rank 策略研发进行重点介绍，希望能够给对陌陌直播产品以及推荐策略分发算法感兴趣的同学起到抛砖引玉的效果。陌陌成立于2011年，2014年在美国纳斯达克上市，2018年收购探探，在开放式社交领域处于领导者地位；是一家年轻且正在快速发展的公司。在陌陌的产品矩阵中，直播占据了一个非常重要的地位，也对公司的整体营收起到了支撑性的作用。依托于社交平

2021-04-21 11:09:05 954

转载业务推荐

有幸参与了几个业务推荐系统搭建的全流程，本文将从实际经验出发，为大家解构如何从从零搭建推荐系统，希望跟大家能够相互交流，如有错误之处烦请指正。一、推荐算法的理解如果说互联网的目标就是连接一切，那么推荐系统的作用就是建立更加有效率的连接，推荐系统可以更有效率的连接用户与内容和服务，节约了大量的时间和成本。如果把推荐系统简单拆开来看，推荐系统主要是由数据、算法、架构三个方面组成。数据提供了信息。数据储存了信息，包括用户与内容的属性，用户的行为偏好例如对新闻的点击、玩过的英雄、购买的物品等等。

2021-04-21 11:00:35 849

转载推荐系统

导读：现在互联网上的内容很多，我们可能每天都会接受来自不同消息。例如，电商网站、阅读博客、各类新闻文章等。但是，这些消息并不是所有的内容你都感兴趣，可能你只对技术博客感兴趣，或者某些新闻感兴趣等等。而这些内容如何去满足用户的需求呢？我们需要一个精准的解决方案来简化用户的发现过程。推荐系统的作用是啥？简而言之，推荐系统就是一个发现用户喜好的系统。系统从数据中学习并向用户提供有效的建议。如果用户没有特意搜索某项物品，则系统会自动将该项带出。这样看起很神奇，比如，你在电商网站上浏览过某个品牌的鞋子，当你在

2021-04-21 10:43:14 422

转载数据分析

这篇文章主要讨论推荐系统的分析技巧，杜绝无脑调参，探讨如何靠简单无脑而且 low到爆的办法，快速搞一把，做到指标增长。下面以问答形式解答一线的常见问题和技巧手段。问：指标上不去，rank加特征能够提升吗？答：这是一个常见的疑惑，大家指标卡在瓶颈的时候，很容易迷信大力出奇迹的方案。其实，rank并不是提升指标的工具，你加多少特征，本质只是方便 rank 更好地还原系统分布的工具，策略才是提供增长，带动系统往良性（黄赌毒方向）发展的利器。要分析系统的指标瓶颈是不是卡在rank缺特征上，就需要从各种角

2021-04-21 10:31:27 395

转载用户画像

导读在互联网步入大数据时代后，用户行为给企业的产品和服务带来了一系列的改变和重塑，其中最大的变化在于，用户的一切行为在企业面前是可“追溯”“分析”的。企业内保存了大量的原始数据和各种业务数据，这是企业经营活动的真实记录，如何更加有效地利用这些数据进行分析和评估，成为企业基于更大数据量背景的问题所在。随着大数据技术的深入研究与应用，企业的关注点日益聚焦在如何利用大数据来为精细化运营和精准营销服务，而要做精细化运营，首先要建立本企业的用户画像。画像简介用户画像，即用户信息标签化，通过收集用户的社会属

2021-04-21 09:56:12 381

转载计算广告

计算广告与推荐系统有哪些区别？来自王喆老师的解答：这是个好问题，但两年前看到这个问题的时候还不太敢回答，总觉得对于两块业务理解的还不够，今天尝试着答一下。我工作后最开始四年是做计算广告算法和系统的，最近两年逐渐转到推荐系统领域。感觉这两个领域的联系大于区别，区别的根本在于两个领域尝试解决的问题是不同的。对于计算广告来说，本质上要处理的是三方利益的协调问题，这三方分别是广告主、用户和媒体。对于推荐系统来说，本质上要处理的是用户体验的问题。正是因为要处理问题的不同，导致

2021-04-21 09:44:37 556

转载 embedding技术实践

当前主流的推荐系统中，embedding 无处不在，从一定意义上可以说，把 embedding 做好了，整个推荐系统的一个关键难题就攻克了。因此，本文总结了移动腾讯网推荐系统中的 embedding 技术实践，力图达到娱人娱己的目的。什么是 embeddingembedding 其实就是一种稠密向量的表示形式。在 embedding 大行其道之前 onehot 才是最靓的仔。如果和我们比较熟悉的 oneHot 对比起来理解，顿时会发现 embedding 这个玄里玄乎的概念，实际上 so easy。

2021-04-20 14:29:28 2196

转载 embedding层

单词嵌入提供了单词的密集表示及其相对含义，它们是对简单包模型表示中使用的稀疏表示的改进，可以从文本数据中学习字嵌入，并在项目之间重复使用。它们也可以作为拟合文本数据的神经网络的一部分来学习（文中涉及代码可左右滑动）。Word Embedding单词嵌入是使用密集的矢量表示来表示单词和文档的一类方法。词嵌入是对传统的词袋模型编码方案的改进，传统方法使用大而稀疏的矢量来表示每个单词或者在矢量内对每个单词进行评分以表示整个词汇表，这些表示是稀疏的，因为每个词汇的表示是巨大的，给定的词或文档主要由零值组

2021-04-19 17:30:56 1745

转载特征工程

值得收藏值得收藏｜近100页的《常见的五种神经网络》汇总电子书值得收藏｜140+页文章推荐系统电子书论文论文｜Sentence2Vec & GloVe 算法原理、推导与实现论文｜Doc2vec的算法原理、代码实现及应用启发论文｜Item2vec中值得品味的8个经典tricks 论文｜万物皆可Vector之Word2vec：2个模型、2个优化及实战使用论文｜万物皆可Vector之语言模型：从N-Gram到NNLM、RN

2021-04-19 17:22:44 284

转载 content embedding

导读：Hulu是美国领先的互联网视频流媒体平台，拥有大量的电影、电视剧等视频资源，对这些内容的理解和表示是Hulu的一个重要研究方向。Content Embedding技术将内容表示为向量，以利于后续算法、模型的处理和分析。本次分享将介绍Hulu在content embedding方面的一些实践和尝试，包括embedding的生成及其在业务场景中的应用。About HuluHulu是一个视频流媒体平台，主要由三个要素构成，分别是用户 (users)、内容 (contents) 和广告 (ads)。H

2021-04-19 17:06:02 538 1

转载偏好挖掘

1. 背景1.1 什么是用户偏好挖掘用户偏好，即对用户内在需求的具体刻画。通过用户的历史行为和数据，对用户进行多角度全方位的刻画与描述，利用统计分析或算法，来挖掘出用户潜在的需求倾向。用户在平台有多种多样的行为，用户的行为都是有内在的驱动因素的，而挖掘用户偏好可以帮助我们从杂乱的信息中抽象出对用户需求的具体描述，从而指导搜索、推荐、push等策略的制定，圈定用户群，进行精准营销与精细化运营。1.2 偏好挖掘工作面临的挑战准确表达：用户偏好挖掘工作对准确的要求是天然存在的，有两点需要考

2021-04-19 16:59:35 1096

转载模型化召回

导读：在陌陌的社交推荐体系中，模型化Recall在召回模块中起到了重要作用。本文主要介绍模型化Recall在陌陌社交推荐中的技术探索和具体落地应用，重点介绍基于用户场景行为驱动、用户社交关系网络和动态语义内容的个性化召回通道构建方式，用户实时性兴趣偏好的捕获方法及如何提高分发场景中用户的社交匹配性。主要内容包括：陌陌社交场景概述模型化召回技术简介模型化召回在陌陌的探索和应用展望&思考陌陌社交场景概述首先和大家分享陌陌的社交场景的特点。1.关.

2021-04-19 16:36:49 639

空空如也

空空如也