京东实习
文章平均质量分 88
愉贵妃珂里叶特氏海兰
日拱一卒无有尽,功不唐捐终入海
展开
-
推荐系统 - 总结 - 架构:从召回到排序再到重排
推荐系统与NLP和CV领域比,发展速度不算太快。不过最近两年,由于深度学习等一些新技术的引入,总体还是表现出了一些比较明显的技术发展趋势。这篇文章试图从推荐系统几个环节,以及不同的技术角度,来对目前推荐技术的趋势做个归纳。1. 推荐系统的宏观架构实际的工业推荐系统,如果粗分的化,经常讲的有两个阶段。首先是召回,主要根据用户部分特征,从海量的物品库里,快速找回用户潜在感兴趣的那一小部分物品,然后交给排序环节,排序环节可以融入较多特征,使用复杂模型,来精准地做个性化推荐。召回强调快,排序强调准。原创 2021-02-09 15:05:56 · 1591 阅读 · 2 评论 -
推荐系统 - 总结 - CTR预估模型发展过程与关系图谱
目录本篇文章将会按照整个CTR预估模型的演进过程进行组织,共分为7个大部分:分布式线性模型 Logistic Regression 自动化特征工程 GBDT+LR FM模型以及变体 FM(Factorization Machines) FFM(Field-aware Factorization Machines) AFM(Attentional Factorization Machines) Embedding+MLP结构下的浅层改造 FNN(Factorizat原创 2021-02-08 16:54:12 · 918 阅读 · 0 评论 -
推荐系统 - 排序 - xDeepFM
一、前言今天为大家带来的是2018年由中科大、北邮、微软联合推出的xDeepFM(eXtreme Deep Factorization Machine)模型。(Lian, Jianxun, et al. "xdeepfm: Combining explicit and implicit feature interactions for recommender systems."Proceedings of the 24th ACM SIGKDD International Conference on..原创 2021-02-08 15:29:44 · 350 阅读 · 0 评论 -
推荐系统 - 排序 - Deep & Cross Network
今天要分享的是2017年斯坦福与Google联合提出的DCN模型,同时这篇论文是Google 对 Wide & Deep工作的一个后续研究。原文:《Deep & Cross Network for Ad Click Predictions》一、背景及相关工作传统的CTR预估模型需要大量的人工特征工程,耗时耗力;引入DNN之后,依靠神经网络强大的学习能力,可以一定程度上实现自动学习特征组合。但是DNN的缺点在于隐式的学习特征组合带来的不可解释性,以及低效率的学习(并不是所有的特征组原创 2021-02-08 10:58:53 · 360 阅读 · 1 评论 -
推荐系统 - 排序 - DeepFM
DeepFM 出自 IJCAI 2017 的论文 DeepFM: A Factorization-Machine based Neural Network for CTR Prediction。1. 背景CTR(click-through rate) 预测,是指预测用户对某个物品的点击率,以便于推送用户最有可能点击的物品。广告平台当然希望有一个模型能够准确预测出用户最可能点击的广告,这样可以增加平台收益;在电商的推荐系统中,需要把用户可能感兴趣的商品从前到后的展示出来,这个顺序就是按照用户点击这个.原创 2021-02-07 17:00:44 · 368 阅读 · 0 评论 -
推荐系统 - 排序 - AFM(attentional factorization machine)
Attentional Factorization Machine本文介绍Attentional Factorization Machines:Learning the Weight of Feature Interactions via Attention Networks,简称为AFM,原文Paper链接;具体的代码实现见Github之前我们讲过FM(https://blog.csdn.net/weixin_41332009/article/details/113310163)摘要AFM原创 2021-02-07 15:30:45 · 412 阅读 · 0 评论 -
推荐系统 - 召回 - 向量化
之前讲过用商品协同过滤的方法来进行召回(https://blog.csdn.net/weixin_41332009/article/details/113550268),这里衡量商品的相似度的方法是通过购买两个商品的人群的相似度来衡量的。还有一种更直观的方法,就是直接根据商品的内容来判断两个商品的相似度。例如可以通过商品的名称、商品的固有属性(长宽高)来计算两个商品的相似度。这篇文章尝试了三种不同的词向量化方法,以及提出了一种自动化构建下游任务的方法,来评估词向量方法的优劣。1. 词向量化方法1.1原创 2021-02-06 21:02:26 · 555 阅读 · 0 评论 -
推荐系统 - 召回 - 基于矩阵分解的算法
对于一个评分矩阵User-Item Matrix,第i行第j列表示第i个用户对于第j个物品的喜爱程度(这个喜爱程度可以通过用户的行为,包括搜索、浏览、加购物车、购买等来表征)。这个矩阵是很稀疏的,因为用户对于商品的行为是很不充分的,一个用户对大部分商品的行为根本没有记录。我们的任务是要通过分析已有的数据(观测数据)来对未知数据进行预测(预测某个用户u对于他根本没见过的商品i会有多少的喜爱程度),即这是一个矩阵补全(填充)任务。矩阵填充任务可以通过矩阵分解技术来实现。核心思想是将用户和商品映射到一个共同的k维原创 2021-02-05 16:53:33 · 505 阅读 · 1 评论 -
推荐系统 - 召回 - 关联规则挖掘 (association rule)
在数据挖掘的知识模式中,关联规则模式是比较重要的一种。关联规则的概念由Agrawal、Imielinski、Swami 提出,是数据中一种简单但很实用的规则。关联规则模式属于描述型模式,发现关联规则的算法属于无监督学习的方法。...原创 2021-02-05 15:23:01 · 884 阅读 · 0 评论 -
数仓 - 促销敏感度、评论敏感度
1. 促销敏感度步骤1.首先按照最后一次下单时间及有无复购情况将用户分为四大群体:近一年有购物行为且复购的用户 -- L1 (今年复购用户) 近一年有购物行为但无复购的用户 --L2 (今年一单购用户) 最后一次下单时间在1年之前且有复购的用户 --L3 (今年无购且只有一单用户) 最后一次下单时间在1年之前但无复购的用户 -- L4 (今年无购多单用户)步骤2.每一类用户群再根据优惠订单占比、每单优惠金额占比的平均值、优惠金额这三个指标进行k-means聚类,分为:非常敏感 -原创 2021-02-04 13:52:04 · 1267 阅读 · 1 评论 -
数仓 - 生命周期、用户价值、忠诚度、活跃度计算
1. 生命周期根据用户自注册为会员后,距今的时间段内订单量的变化判断用户的生命周期阶段。此标签有助于判断网站用户的流失情况,而且对于不同的阶段,应该采取不同的营销策略。划分标准如下:1---考察阶段:最近30天注册未下单用户;2---形成阶段-未复购-1:.最早一次销售日期>=系统日期-30天,且最早一次销售日期=最近一次销售日期;(最近30天完成了第一次购买,但是还没有再次购买)3---形成阶段-未复购-2:系统日期-90天<=最早一次销售日期<系统日期-30天,且最早一次原创 2021-02-04 11:39:19 · 1859 阅读 · 0 评论 -
推荐系统 - 召回 - 冷启动
冷启动冷启动问题主要分为两类:用户冷启动:解决为新用户做个性化推荐的问题 物品冷启动:解决将新物品推荐给可能对它感兴趣的用户这一问题这里主要分享两个算法,一个是利用用户的注册信息进行冷启动,一个是利用物品本身信息进行冷启动。1.利用用户注册信息这里主要利用用户注册时填写的人口统计学信息,如年龄、性别、职业、民族、学历和居住地等,来进行推荐。其基本流程如下:获取用户的注册信息 根据注册信息对用户进行分类 给用户推荐他所属那个分类中用户喜欢的物品其中核心问题是计算每种分类(特征).原创 2021-02-03 16:29:51 · 341 阅读 · 0 评论 -
推荐系统 - 召回 - 协同过滤
协同过滤这里要先声明一点,仅仅基于用户行为(浏览、加购物车、购买)数据设计的推荐算法一般称为协同过滤算法。凡是那些考虑了商品本身特性的算法不叫协同过滤。1. 基于用户的协同过滤算法定义:在一个在线个性化推荐系统中,当一个用户A需要个性化推荐时,可以先找到和他有相似兴趣的整个用户群体,然后把这个用户群体喜欢的、而用户A没有听说过的物品推荐给A。主要包含两个步骤:a. 计算用户之间的相似度:找到和用户A兴趣相似的用户群体。b. 用户群体对物品的喜好程度、以及用户A和用户群体的相似度为每个物品原创 2021-02-03 15:51:53 · 1194 阅读 · 0 评论 -
推荐系统 - 排序算法 - 神经网络:FNN 论文阅读
1. 前言FNN 在文章 Deep Learning over Multi-field Categorical Data – A Case Study on User Response Prediction 中提出论文地址该篇论文于2016年发表,提出了基于FM预训练获取离散特征embedding表示(注意这里的“特征”指的是FFM中说的“field”,而不是FM中说的“特征”,比如“性别”算一个特征、“品类”算一个特征),结合MLP来进行CTR的预估,因为思想比较简洁,放在现在来看已经不算特别..原创 2021-01-29 15:04:36 · 1122 阅读 · 2 评论 -
推荐系统 - 排序算法 - FFM (Field-aware Factorization Machine)
1. 背景在CTR/CVR预估任务中,除了FM模型之外(FM:https://blog.csdn.net/weixin_41332009/article/details/113310163),后起之秀FFM(Field-aware Factorization Machine)模型同样表现亮眼。FFM可以看作是FM的升级版,Yuchi Juan于2016年提出该模型,但其诞生是受启于Rendle在2010年发表的另一个模型PITF(FM也是Rendle在2010年发表的),其论文原文中写道:The原创 2021-01-29 10:50:47 · 552 阅读 · 0 评论 -
推荐算法常用评价指标:ROC、AUC、F1、HR、MAP、NDCG
1.再复习一遍accuracy, precision, recall, F1 score:2. 再复习一遍ROC、AUCROC曲线的横坐标为false positive rate(FPR),纵坐标为true positive rate(TPR)AUC(Area Under Curve)被定义为ROC曲线下的面积。又由于ROC曲线一般都处于y=x这条直线的上方,所以AUC的取值范围在0.5和1之间。使用AUC值作为评价标准是因为很多时候ROC曲线并不能清晰的说明哪个分类器的效果更好,而作为原创 2021-01-28 18:28:37 · 7736 阅读 · 0 评论 -
推荐系统-排序算法:GBDT+LR
1. GBDT + LR 是什么本质上GBDT+LR是一种具有stacking思想的二分类器模型,所以可以用来解决二分类问题。这个方法出自于Facebook 2014年的论文Practical Lessons from Predicting Clicks on Ads at Facebook。2. GBDT + LR 用在哪GBDT+LR 使用最广泛的场景是CTR点击率预估,即预测当给用户推送的广告会不会被用户点击。在CTR预估问题的发展初期,使用最多的方法就是逻辑回归(LR),LR使用..原创 2021-01-28 15:17:54 · 1588 阅读 · 0 评论 -
推荐系统 - FM(因子分解机)
1. 应用背景 在计算广告和推荐系统中,CTR预估(click-through rate)和转化率CVR(conversion rate)估计是非常重要的一个环节。判断一个物品是否进行推荐需要根据CTR预估的点击率排序决定。业界常用的方法有人工特征工程+LR(Logistic Regression)、GBDT(Gradient Boosting Decision Tree) + LR、FM(Factorization Machine)和FFM(Field-aware Factorization Mach原创 2021-01-28 14:27:58 · 597 阅读 · 0 评论 -
LSH(局部敏感度哈希)
LSH(局部敏感度哈希)1 intuition在很多应用领域中,我们面对和需要处理的数据往往是海量并且具有很高的维度,怎样快速地从海量的高维数据集合中找到与某个数据最相似(距离最近)的一个数据或多个数据成为了一个难点。例如推荐系统的用户协同过滤中,我们拥有4亿活跃用户,每个用户可以用一个高维向量表示,如果计算用户的两两相似度,需要花费很长的时间;在商品协同过滤中,单JD泰国就拥有超过2500万个商品,每个商品可以用一个高维向量表示(商品名称的embedding+一些数值型属性),如果要计算所有商原创 2021-01-19 16:59:01 · 4305 阅读 · 0 评论