推荐系统
文章平均质量分 90
smartcat2010
这个作者很懒,什么都没留下…
展开
-
用户画像介绍
标签分级;标签粒度的粗细;模型标签是核心;第一类是人口属性,这一类标签比较稳定,一旦建立很长一段时间基本不用更新,标签体系也比较固定;第二类是兴趣属性,这类标签随时间变化很快,标签有很强的时效性,标签体系也不固定;第三类是地理属性,这一类标签的时效性跨度很大,如GPS轨迹标签需要做到实时更新,而常住地标签一般可以几个月不用更新,挖掘的方法和前面两类也大有不同,如图10...转载 2020-01-10 16:30:20 · 663 阅读 · 0 评论 -
置信度与置信区间
置信度与置信区间“我 95% 相信在美国足球爱好者的比例是 58% 至 62%”, 假设baseline是60%,则置信度是95%,置信区间是60%+-2%我的理解:每一次采样(比如采样1000个样本),的正确率,作为一个统计样本,放在直方图里,采样10000次统计样本,置信度固定的情况下,置信区间越来越小,直至收敛截然不同的解释A/B测试和置信区间置信区间,即-7...原创 2020-01-05 17:43:25 · 1843 阅读 · 0 评论 -
FTRL&FM
1. Feature Retire: 防止随着训练持续进行,模型越来越大;将较长时间不修改的feature,从模型中删去;2. Dump模型,w,q,z必须Dump出来,用来断点恢复;w单独dump出来,用来给Prediction-Cluster进行预测;3.在线最优化求解 冯扬 FTRL最优化问题的公式里,包含3个部分:迎合过往梯度,正则化增加稀疏性,别离以往的W偏离过远;...原创 2016-11-16 15:06:38 · 3393 阅读 · 0 评论 -
深度学习在美团酒店搜索中的应用
引言2018年12月31日,美团酒店单日入住间夜突破200万,再次创下行业的新纪录,而酒店搜索在其中起到了非常重要的作用。本文会首先介绍一下酒店搜索的业务特点,作为O2O搜索的一种,酒店搜索和传统的搜索排序相比存在很大的不同。第二部分介绍深度学习在酒店搜索NLP中的应用。第三部分会介绍深度排序模型在酒店搜索的演进路线,因为酒店业务的特点和历史原因,美团酒店搜索的模型演进路线可能跟大部分公司都不...转载 2019-12-13 09:13:50 · 1466 阅读 · 0 评论 -
今日头条算法原理
今天,算法分发已经是信息平台、搜索引擎、浏览器、社交软件等几乎所有软件的标配,但同时,算法也开始面临质疑、挑战和误解。今日头条的推荐算法,从2012年9月第一版开发运行至今,已经经过四次大的调整和修改。今日头条委托资深算法架构师曹欢欢博士,公开今日头条的算法原理,以期推动整个行业问诊算法、建言算法;通过让算法透明,来消除各界对算法的误解,并逐步推动整个行业让算法更好的造福社会。以下为《今...转载 2019-12-06 13:31:54 · 196 阅读 · 0 评论 -
抖音视频推荐
抖音的流量分配是去中心化的。在微博和公众号上,如果你没有粉丝的话,你发的内容就不会有人看。但是抖音就不一样,你可以完全没有粉丝。所有的抖音的用户,你拍的任何一个视频,无论质量好还是质量坏,发布了之后一定会有播放量,从几十到上千都有可能。抖音不能与一般的视频feed流app如西瓜所用算法等同看待。强大的人工运营团队是保障,合理的音乐社区标签体系、专业的后期bgm剪辑与选取、及时更新...转载 2019-12-06 13:20:45 · 931 阅读 · 0 评论 -
Youtube视频推荐
一、了解YouTube推荐系统的大概算法推荐算法的设计初衷是持续增加用户在 YouTube 网站的观看时长,根据观看者的喜好推荐视频——YouTube关注的重点不是上传的影片内容,而是关心观众在看什么影片。推荐算法有两个步骤:生成候选视频&对其排名生成候选视频会分析两个方面:一方面分析视频:观看量,顶踩、评论数量另一方面分析用户:过去看了什么,观看时长,不看什么2. ...转载 2019-12-06 13:04:56 · 403 阅读 · 0 评论 -
视频直播推荐系统
直播推荐方法:1,人工排序,审核会给直播内容一个初始排序,然后再根据直播热度进行排序2,曝光算法,每个主播转化能力有限,当房间超过一定数后就很难产生转化,每个主播都会拥有自己的曝光值,超过后便会向后排3,内容匹配,用户会根据行为渠道被打相应用户标签,相关的直播内容在相关的用户前排序会比较高===============================================...转载 2019-12-06 13:01:53 · 2934 阅读 · 4 评论 -
推荐排序神经网络输入embedding的预训练----Item2Vec(ItemCF,UserCF)
2016年的论文:Item2vec: Neural Item Embedding for Collaborative Filtering (我们公司用的就是这个)这篇文章比较朴素,创新性不高,基本是参照了google的word2vec方法,应用到推荐场景的i2i相似度计算中,但实际效果看还有有提升的。主要做法是把item视为word,用户的行为序列视为一个集合,item间的共现为正样本,并按照...原创 2019-11-24 18:59:13 · 843 阅读 · 0 评论 -
搜索排序评价指标
信息检索中常用的评价指标:MAP,NDCG,ERR,F-measure一. NDCG:Normalized Discounted Cumulative Gain; rel是相关度(Gain);i是排名位置(Discounted), 加起来就是CumulativeN是Normalized;(Query是同一个p,但是分子(当前列表)和分母(最优列表)的内容可能不同)...原创 2019-11-23 20:55:49 · 1346 阅读 · 0 评论 -
总结提纲--经典算法(推荐系统)
2016--Yoube--视频推荐DNN召回阶段也用了DNN(别人家都是用CF、基于内容、基于社交网络等): 输入是{用户画像(包括用户行为video集合+用户行为过的搜索词集合+用户属性),context(地理位置信息...)},输出是(百万个video,每个是一个类别);损失函数是softmax+交叉熵损失;用户实际观看完的video做正样本,用negative-sampling选负样本(...原创 2019-11-06 10:59:49 · 373 阅读 · 0 评论 -
DSSM线上预测速度优化案例
–输入:1个query和100个Doc-title•query经分词后的term•每个文档的title经分词后的term–输出:•每个文档的title和query的特征向量四个相似度–DNN 输入层相似度–DNN前馈输出后相似度–CNN输入层相似度–CNN前馈输出后相似度通过每一步的计算量分析(也可以用Visual Profiler), 得到:1. ...原创 2019-03-28 21:22:24 · 899 阅读 · 0 评论 -
RankNet,LambdaRank,LambdaMART详细解释
RankNet与LambdaRankSij=1表示i应该排在j前面(i和Query得相关性,比j和Query得相关性更大)横轴t是;纵轴C是损失函数;样本是2个Query-Doc Pair;Label是二值0/1, 表示是否比更相关;机器学习排序算法:RankNet to LambdaRank to LambdaMART所以对于而言,总是小于0的,越小,C越大,梯...转载 2019-02-26 22:28:28 · 1426 阅读 · 0 评论 -
《计算广告》读书笔记
刘鹏讲座---一文搞懂互联网广告的计算原理DMP的用户数据从何而来第一部分 广告市场与背景什么是广告?广告的根本目的是广告主通过媒体达到低成本的用户接触。----《当代广告学》什么是广告呢?作者对广告的理解是,一切付费的信息、产品或服务的传播渠道,都是广告。互联网广告有,横幅广告、富媒体广告、文字链广告、视频广告、社交广告、移动广告、邮件定向营销广告,更宽泛地,团购、游戏...转载 2019-10-30 20:24:14 · 553 阅读 · 0 评论 -
计算广告与推荐系统有哪些区别?
计算广告与推荐系统有哪些区别?区别的根本在于两个领域尝试解决的问题是不同的。对于计算广告来说,本质上要处理的是三方利益的协调问题,这三方分别是广告主、用户和媒体。 对于推荐系统来说,本质上要处理的是用户体验的问题。正是因为要处理问题的不同,导致了两个领域思考方式的不同。比如同样是构建一个CTR模型:对于计算广告系统来说,站的角度更多的是用这个CTR模型产生更多的收益,那么在使...原创 2019-10-29 16:59:30 · 934 阅读 · 0 评论 -
爱奇艺广告
爱奇艺效果广告的个性化探索与实践1. 优化目标CPX 时代广告主投放广告是以点击作为计费方式,但广告主的真实诉求是点击后的转化行为。例如上图,一个 App 的广告,用户点击后的下载、安装、付费,这些转化行为才是广告主真正关注的。广告主为了提升从点击到转化的概率,会做很多离线优化,例如定向20-30岁女性或定向喜欢《亲爱的热爱的》电视剧的用户。但这样做可能会产生很多问题,比如定向粒度过细...原创 2019-10-29 15:39:46 · 773 阅读 · 0 评论 -
阿里妈妈2018的ESMM(CVR预估)
阿里CVR预估模型之ESMM和Multi-Task-Learning框架,和迁移学习,扯上关系,高大上了。一、Motivation不同于CTR预估问题,CVR预估面临两个关键问题:Sample Selection Bias (SSB)转化是在点击之后才“有可能”发生的动作,传统CVR模型通常以点击数据为训练集,其中点击未转化为负例,点击并转化为正例。但是训练好的模型实际使用时,则...原创 2019-10-26 21:17:52 · 731 阅读 · 0 评论 -
阿里淘宝2019的BST(用Transformer建模用户行为序列)
阿里首次将Transformer用于淘宝电商推荐!效果超越深度兴趣网络DIN和谷歌WDL用Transformer对用户最近的20个点击行为序列进行建模;结合了point-wise Feed-Forward Network(FFN)baseline的WDL没有使用行为序列做输入(不公平),WDL(+Seq)那个使用了行为序列的embedding平均值做输入;和DIN的区别:使用 Tr...原创 2019-10-25 21:25:14 · 2907 阅读 · 0 评论 -
MSRA2018的xDeepFM(CIN)
xDeepFM:名副其实的 ”Deep” Factorization Machine自动构造输入向量的“高阶”特征组合;可惜工业界实际效果一般比不过Wide&Deep和DeepFM;时间复杂度高是痛点;容易过拟合(可对特征做离散化,加dropout来解决)基本框架依然基于标准的Embedding&MLP,其中Linear、Plain DNN分别类似Wide和Deep部分...原创 2019-10-26 17:09:55 · 670 阅读 · 0 评论 -
Google2017的Deep&Cross Network
Deep & Cross Network总结在工业界的实践效果不如Wide&Deep和DeepFM那么好;(和WDL的效果基本持平)揭秘 Deep & Cross : 如何自动构造高阶交叉特征Google 对 Wide & Deep的一个后续研究;将Wide部分替换为由特殊网络结构实现的Cross,自动构造有限高阶的交叉特征,并学习对应权重,告别了...原创 2019-10-25 22:30:14 · 331 阅读 · 0 评论 -
Facebook2019的DLRM
《Deep Learning Recommendation Model for Personalization and Recommendation Systems》模型结构:dense特征,经过bottom MLP的变换,得到一个embedding; 和类别特征的embedding们,两两之间做向量点乘(类似FM的思想),得到的很多乘积串成一个向量,输入到top MLP里面,最后过sigmo...原创 2019-10-22 15:58:33 · 483 阅读 · 0 评论 -
推荐算法线上Serving
推荐系统的实时性实验结果显示,模型更新越慢,效果就越差;一. 推荐系统「 特征」的实时性:推荐系统的更新速度越快,越能够反应用户最近的用户习惯,越能够给用户进行越有时效性的推荐。系统“实时”地收集推荐系统模型所需的输入特征,使推荐系统能够总是使用最新的特征进行预测和推荐。1. 客户端实时性(无延迟):如果客户端能够缓存session内部的行为,作为与上下文特征同样的实时特征传...原创 2019-10-18 18:21:18 · 1173 阅读 · 2 评论 -
Youtube2016的推荐算法_经典
重读Youtube深度学习推荐系统论文,字字珠玑,惊为神文百万候选集==>召回阶段==>几百候选集==>Ranking阶段==>排在最前面的十几个;召回阶段:输入:用户行为过的video集合 + 用户行为过的搜索词集合 + 用户属性输出:百万级的类别(每个video是一类)输入的video和搜索词的embedding,是用word2vec预训练得到的;(...原创 2019-10-17 21:24:37 · 532 阅读 · 0 评论 -
Google2016的Wide&Deep和华为2017的DeepFM_经典
《Wide & Deep Learning for Recommender Systems》:Google,2016年提出,应用商店做排序;《DeepFM: A Factorization-Machine based Neural Network for CTR Prediction》:华为,2017年提出,应用商店做排序;很好的博客LR: 优势是速度快,便于加特征,可解...原创 2019-10-15 17:45:59 · 475 阅读 · 0 评论 -
广告平台
Ad Network、Ad Exchange、DSP、SSP、DMP的区别广告主(advertiser):花钱打广告宣传自己品牌或者商品的公司;媒体(publisher):新浪、电视台、展牌等有位置放广告收钱的公司;广告商(agency):中介;受众(audience):普罗大众;Ad Network(广告网络):联系小广告主们和媒体们的桥梁;负责给不同广告位进行定价。本...原创 2019-10-13 14:45:47 · 247 阅读 · 0 评论 -
美团深度学习在搜索广告中的应用
原文: https://tech.meituan.com/searchads_dnn.html#ref-5 我们抽取了以下几大类特征:用户特征 人口属性:用户年龄,性别,职业等。 行为特征:对商户/商圈/品类的偏好(实时、历史),外卖偏好,活跃度等。 建模特征:基于用户的行为序列建模产生的特征等。 商户特征 属性特征:品类,城市,商圈,品牌,价格,促销,星级,评论等。...转载 2018-11-29 18:25:48 · 240 阅读 · 0 评论 -
【业界实战】小米大数据总监司马云瑞详解小米用户画像的演进及应用解读
原文链接:https://mp.weixin.qq.com/s/95Zklj8ovheQV3Gnc-2h-Q亮点:“这里以性别预测为例,一方面,小米有大量的帐号/手环/支付/VIP数据,这些数据都有用户的性别,可以作为训练样本。另一方面,小米有大量的用户行为数据,包含APP/浏览器/购物等数据,利用这些数据作为特征,可以训练性别模型。”App2Vec, Action2Vec。。。...转载 2017-11-14 17:34:54 · 11405 阅读 · 0 评论 -
推荐系统知识笔记
特征哈希后的碰撞冲突如何解决;如何保证均匀打散的;答:可以分组,把数量多的特征多给位数,数量少的特征少给位数;可以预留1~2位,用来处理冲突,遇到冲突就0~3编号;离线模型,线上模型;答:离线模型是daily更新到online,online是在这个基础上把当天最新的点击反馈实时训练至模型里;daily模型也是在老模型的基础上,加入最近N天时间窗口的训练数据,"添油战";效果:线下...原创 2017-07-31 00:37:15 · 429 阅读 · 0 评论 -
为什么YouTube懂你想要看什么?从算法论文反推其推荐机制
为什么YouTube平台上会源源不断产生优质视频和优质广告,真的只是偶然吗?为什么用户一上youTube就黏住了,这背后到底下了多大的功夫研究人性的细节?如此海量的数据,如何精准地推送给每一个恰当的人?本文是YouTube在推出关于自家推荐系统的论文后,作者对其的验证、补足和进一步解析。去年,在波士顿举办的第10届ACM推荐系统大会(ACM’s RecSys转载 2017-09-05 18:12:20 · 3220 阅读 · 0 评论 -
Pinterest推荐系统四年进化之路--王栋
今年4月,WWW大会上出现一篇论文“Related Pins at Pinterest: The Evolution of a Real-World Recommender System”,介绍了Pinterest推荐系统四年的进化之路。四年前,我加入了Pinterest的Discovery Team,那时候大半个Discovery Team都在忙着搭建这个叫Related Pins的新功转载 2017-07-15 23:44:26 · 1248 阅读 · 0 评论 -
美团推荐系统
http://blog.csdn.net/liugallup/article/details/51079350转载 2017-04-07 17:51:45 · 2670 阅读 · 0 评论 -
旅游推荐系统的演进
原文链接:http://www.tuicool.com/articles/veAJnaA背景度假业务在整个在线旅游市场中占据着非常重要的位置,如何做好做大这块蛋糕是行业内的焦点。与美食或酒店的用户兴趣点明确(比如找某个确定的餐厅或者找某个目的地附近的酒店)不同,旅游场景中的用户兴趣点(比如周末去哪儿好玩)很难确定,而且会随着季节、天气、用户属性等变化而变化。这些特点导致传统转载 2017-03-29 11:46:59 · 747 阅读 · 0 评论 -
机器学习的最小可用产品:人工智能应用的敏捷开发
原文链接:http://www.sohu.com/a/156020537_470008我们曾经在公众号上发过一篇文章《年薪百万的机器学习专家,为什么不产生价值?》(https://zhuanlan.zhihu.com/p/26435192),文中的机器学习专家花了大量的时间搭建平台,做数据的清洗、处理与机器学习建模,却没有带来公司所期望的价值。问题出在哪里了呢?基于第四转载 2017-07-13 20:13:15 · 819 阅读 · 0 评论 -
阿里妈妈2018的DIN & DIEN
DIN来龙去脉:背景知识:用户画像+用户行为+Item特征+上下文特征,这4者(也可是3者)作为输入信息,将原有的高维稀疏0/1特征做成embedding向量,每组特征由1个或多个向量pooling得到1个向量,最后所有组特征concatenate起来,作为神经网络的input;一. DIN:(用户行为item和候选item的向量相似度做权重(attention),把所有行为item加和起...原创 2019-08-26 20:00:51 · 1102 阅读 · 0 评论 -
概念:Roc, AUC, Precision, Recall
Given a randomly chosen observation x belonging to class 1, and a randomly chosen observation x ′ belonging to class 0, the AUC is the probability that the evaluated classification algorithm will assi...转载 2016-12-29 16:49:44 · 2126 阅读 · 0 评论 -
《推荐系统实践》读书笔记(六)(基于好友关系)
利用社交网络数据A.哪些渠道1.电子邮件:冷启动时导入邮件好友;2.用户注册信息:来自哪个公司,哪个学校;3.用户位置信息:同一座公司/宿舍的人,可以假设有好友关系;4.同一个小组或论坛:豆瓣小组(具有相同的兴趣)5.聊天工具;6.社交网站:微博(兴趣相似,不一定认识),微信(社会化关系,不一定兴趣相投);B. 推荐好友们喜欢的物品1. 增加信任度:用户往...原创 2019-09-12 22:23:20 · 209 阅读 · 0 评论 -
《推荐系统实践》读书笔记(七)(推荐系统例子)
A.行为日志存储系统--->推荐系统--->UI--->用户 ^-------------------日志系统------/根据数据规模的大小,和数据的实时性要求,决定了数据存在哪里:实时性要求高的,存在Redis/数据库,实时性要求低的,存在数据库/HDFSB. 介绍了一种基于内容的推荐系统用户和物品之间,用3种东西关联上:物品,用户...原创 2019-09-17 16:33:33 · 159 阅读 · 0 评论 -
推荐系统架构实例
1. 京东电商推荐系统强调了特征工程;模型上线,用了TensorFlow serving;人家把线上推荐用的特征和点击/不点击,一起保留在日志里了,这样线下训练更准确(如果只保留UserId和ItemId和Context,则UserId对应的特征会随时间发生变化,造成离线训练和当时线上用的特征不一致)人家强调对特征和模型这两者的实时更新(近线计算)多样性:模型输出的结果...原创 2019-09-12 21:05:37 · 262 阅读 · 0 评论 -
《推荐系统实践》读书笔记(五)(基于上下文)
上下文:时间(季节、节日、工作日/周末、上班时间/下班时间)、地点(在厕所还是在办公室、在哪个商圈/小区)、跟谁在一起(同学、同事、情侣、父母、子女)、心情怎么样(女性情绪化更严重)1. 用户的兴趣是随时间evolve的,最近的行为最能反映当下的兴趣(短期画像 VS 长期画像)2. 物品的生命周期:特别是新闻,过后就死;电影中的精品可以经久不衰;3. 季节效应:冬天喝汤夏天喝冷饮;圣诞...原创 2019-09-12 16:39:13 · 174 阅读 · 0 评论 -
《推荐系统实践》读书笔记(四)(用户和物品用标签关联)
推荐系统将用户和物品关联起来的3种方式:1. 利用用户喜欢得物品,推荐和这批物品相似得的物品;2. 利用和用户具有相似兴趣的用户群体,推荐这个群体喜欢的物品;3. 用特征做桥梁关联用户和物品(用户有哪些特征,推荐具备这些特征的物品)让用户给物品打标签,是王道:1. 节省标注员;2.通过用户爱打什么标签得知他喜欢或者关注哪些方面;用户给物品打的标签,是分成好多种类的:1. 物品是...原创 2019-09-12 11:24:34 · 423 阅读 · 0 评论