推荐算法
iwtbs_kevin
曾在快手/阿里实习,现在字节跳动data担任推荐算法工程师
展开
-
独家干货——谈谈我眼中的“推荐算法”
文章目录推荐是要做什么事情?怎么评估推荐算法的效果模型解决不了的,上规则不就好了?微信公众号:推荐广告算法小木屋作者:小凯推荐是要做什么事情?很多人会有一个误区,即推荐就是CTR预估,这也是很多博客/模型/比赛给大家带来的误区,我们今天详细聊聊工业界的推荐。用一句话来解释推荐的本质:在候选池集合中,挑选出用户最满意的一部分物料展现给用户。虽然看起来很简单,但是实际上这句话就可以指导我们做任何事情。大家可以看到我有两个关键词加粗了,接下来我们详细来聊聊。第一点是候选池,即要做好推荐这件事,最原创 2020-12-14 00:30:30 · 1146 阅读 · 1 评论 -
向量快速检索方法总结——KDtree/Balltree/Annoy/NSW/HNSW
文章目录导语线性扫描KDTree构造检索特点BallTree构造检索特点Annoy构造检索特点NSW构造检索HNSW构造查找导语为什么要用向量快速检索呢?因为实际上现在各家公司主召回都会使用向量化召回,但是工业界数据规模太大,精确的近邻搜索太过困难,研究随之转向了在精确性和搜索时间做取舍,即Approximate Nearest Neighbor Search (ANNS)本文会介绍常用的一些快速检索方法原理,即其效果线性扫描将待预测样本和候选样本逐一比对,最终挑选出距离最接近的k个样本即可,时间原创 2020-12-05 23:25:55 · 2636 阅读 · 0 评论 -
推荐系统中的EE问题——Bandit算法
文章目录先验知识朴素Bandit算法Epsilon-Greedy算法汤普森采样UCB算法LinUCBExploration and Exploitation(EE问题,探索与开发)是推荐领常见的问题,主要是为了平衡准确性和多样性。Exploitation是指我们要迎合用户兴趣给他推荐他想要的,Exploitation指的是怕用户腻,所以要推一些新的东西,万一用户感兴趣呢是吧。多臂老虎机问题就很像推荐这个场景,我们不知道每个机器吐钱的分布,只能根据现有的知识摇,如果一直摇所知最高的就是Exploitat原创 2020-11-19 00:54:54 · 2107 阅读 · 0 评论 -
【持续更新】迁移学习在推荐中的应用
迁移学习在推荐领域的应用ESMMMMOEMOSEMiNet背景模型思考之前在阿里实习的时候课题就是用迁移学习来赋能推荐。首先谈谈迁移学习是什么——简单来说就是利用源域数据来解决目标域的问题。那为什么要用它——很多时候是因为目标域数据量不够或者效果不好,通过迁移学习,目标域中的数据稀疏和冷启动问题都能得到缓解。如果对推荐算法有了解话,很快会想到ESSM和MMOE这种多任务学习的算法,确实这也是推荐场景下最广为人知的算法,多任务学习就可以认为是迁移学习的一种。除此之外,最简单的fine-tune结构属于迁原创 2020-11-18 17:16:55 · 1420 阅读 · 0 评论 -
点击率CTR修正方法——威尔逊区间
CTR = 点击数 / 曝光数由于原始CTR计算方式只考虑了相对值,没有考虑绝对值。即,没有考虑曝光的数值大小,在曝光少的情况下,计算出的CTR其实不可靠,样本充足的情况下,才能反应真实情况举例:A:点击数 5 曝光数 10B:点击数 50 曝光数 100C:点击数 500 曝光数 1000此三个广告的CTR 都是 0.5 ,但是按照实际表现,从置信的角度分析,应该是C...原创 2020-04-04 18:21:57 · 1662 阅读 · 0 评论 -
推荐系统实践——阿里B2B
文章目录商品召回排序内容推荐未来工作本文参考DataFunTalk发展历史商品召回I2I召回和U2I召回2. Deep Match U2I召回在Youtube Deep Match的基础上,基于序列上下文的Attention,构建用户表征,即通过时间衰减/行为类别/停留时间等信息对用户序列进行建模,模型的结构图所示排序DINDIN是显性的用户表征学习,对Beha...原创 2020-03-29 17:19:57 · 462 阅读 · 0 评论 -
推荐算法——冷启动算法调研
文章目录讨论内容平台准备其他平台信息整合:做好文章画像新用户到来初期丰富用户画像,基于内容推荐上下文推荐热度退减快速试探冷启动用户操作一段时间后评估冷启动效果判定冷启动阶段结束策略迁移一些讨论微信面试一直在讨论冷启动,然后给我提了一个任务是,让我就讨论内容查找资料,两天时间出个报告发给他。讨论内容如何做用户冷启动如何做文章冷启动冷启动效果如何评估,具体怎么实现pipline收敛首...原创 2020-03-18 12:05:10 · 2530 阅读 · 0 评论 -
推荐系统实践——知乎如何做首页rank
文章参考「回顾」知乎推荐页Ranking经验分享文章目录推荐页请求流程ranking演进特征介绍CTR模型DNNDeep FMLast View + DINLast Display + GRU多目标优化最终模型结构经验分享面临问题推荐页请求流程召回基于话题:获取用户的关注数据,用户行为挖掘;基于内容:协同过滤的方式排序基于规则:时间顺序,线性加权;基于模型:GDBT,DNN重...原创 2020-03-13 15:43:39 · 907 阅读 · 0 评论 -
分析用户搜索行为打标签
文章目录整体架构分部介绍整体架构直接看代码#python get_novel_info_from_feed_monitor.py ./data/novel_info.txt#python get_video_info_from_video_film.py ./data/video_info.txt#python get_star_info_from_video_film.py ./dat...原创 2020-02-10 12:20:52 · 595 阅读 · 0 评论 -
敏感词匹配——python使用esmre实现ac自动机[多模匹配]
介绍与安装希望可以做敏感词的匹配,比如包含‘詹姆斯’的句子认为是体育相关,由于数量巨大, 不可能用正则一个个的匹配,因此采用ac自动机,具体原理不介绍了,直接使用esmre库即可。pip install esmre简单例子import esmindex = esm.Index()index.enter("宝马")index.enter("马")index.enter("奔驰")...原创 2020-01-15 18:47:09 · 2770 阅读 · 2 评论 -
推荐算法—ctr预估
文章目录总览Deep Crossing(2016年)——深度学习CTR模型的base modelFNN(2016年)——用FM的隐向量完成Embedding初始化PNN (2016年)——丰富特征交叉的方式Google Wide&Deep(2016年)——记忆能力和泛化能力的综合权衡华为 DeepFM (2017年)——用FM代替Wide部分Google Deep&Cross(20...原创 2020-01-03 17:14:10 · 3101 阅读 · 0 评论 -
推荐系统模型总结——特征交叉
DCN改进版FMFFMDCNDCN-M背景模型改进思路反思FMFFMDCN特征经过embedding、stack后,分别输入cross network和DNN,两路的输出stack后经过单层nn映射为一维的预测分数。embedding/stack/DNN不必赘述,主要看cross network。cross network的核心思想是更高效地实现显式特征交叉,每一层的计算如下:x0,xl,wl,blx_0,x_l,w_l,b_lx0,xl,wl,bl 都是d维的列向量,形状是(d,1原创 2020-11-18 01:08:24 · 4937 阅读 · 0 评论 -
Learning to Rank模型总结
文章目录LTR介绍pointwisepairwiselistwise经典算法RankNetLambdaRank信息检索常用指标MAPnDCGERRLTR介绍搜索排序主要有两个步骤:query-doc匹配:寻找与当前输入的query相关度高的docs高相关度docs精确排序:选取更多特征并按照用户点击该doc的可能性大小精确排序Learning to Rank就是一类目前最常用的,通过...原创 2020-04-27 01:55:21 · 1225 阅读 · 0 评论 -
如何让推荐列表不要千篇一律?——重排算法MMR
MMR原理QQQ : 用户;DDD : 推荐结果集合;SSS : RRR中已被选中集合; KaTeX parse error: Undefined control sequence: \S at position 2: R\̲S̲: 中未被选中集合;λλλ: 权重系数,调节推荐结果相关性与多样性该如何理解这个公式?简单说,从未选中的集合中选择一个物品,计算它和用户的相似性,...原创 2020-04-04 21:39:11 · 672 阅读 · 0 评论 -
推荐算法如何做多目标优化
文章目录阿里 ESMM阿里 DUPN美团"猜你喜欢" 深度学习排序模型Google MMoE阿里 ESM2YouTube 多目标排序系统美图小结推荐系统中如果只优化ctr,那么有很多已有的ctr预估模型可以做。但是往往一个优秀的推荐系统除了ctr外还有很多优化的目标,比如观看时长、收藏率、转发率等,那么能训练一个模型,对多个目标同时优化呢。本文将总结一些该方面的成果和实践阿里 ESMM论文...原创 2020-03-13 23:08:59 · 4430 阅读 · 0 评论 -
推荐算法总结(召回+排序+工程化)
文章目录内容召回word2vecLDAFastTextTextCNN行为召回ItemCFUserCF关联规则聚类协同矩阵分解隐语义LFM图召回PersonalRank深度学习召回因子分解排序FMFFM树模型排序GBDT+LR深度模型排序DNN特征高阶组合低阶特征单独建模特征交叉优化小结:内容召回word2vec了解skip-gram和cbow两种网络的结构了解优化方法:Hierarch...原创 2020-03-04 11:35:48 · 10588 阅读 · 2 评论 -
推荐算法召回
文章目录向量化召回图嵌入双塔模型协同过滤矩阵分解热度召回内容召回深度树匹配向量化召回向量化召回,主要通过模型来学习用户和物品的兴趣向量,并通过内积来计算用户和物品之间的相似性,从而得到最终的候选集。其中,比较经典的模型便是Youtube召回模型。在实际线上应用时,由于物品空间巨大,计算用户兴趣向量和所有物品兴趣向量的内积,耗时十分巨大,有时候会通过局部敏感Hash等方法来进行近似求解。图嵌入...原创 2020-02-13 17:29:46 · 1466 阅读 · 0 评论 -
用矩阵分解来解决推荐问题
文章目录整体架构分部细节生成训练数据bm25矩阵分解lightfm整体架构读取数据训练模型分部细节生成训练数据从hadoop生成两个子文件(1)docid,pv,cl(2)mid,cl_docid_duration_dict, pv_docid_set生成训练数据:get_docid_doctype_videotime_by_kv.pygen_mid_docid.pyg...原创 2020-02-10 16:51:15 · 429 阅读 · 0 评论 -
混合推荐系统介绍
文章目录当前推荐系统的问题工程实践实时推荐系统与混合推荐深度学习等复杂推荐模型整合多数据源特殊情况下的处理策略推荐数量不足的增补通过混合策略解决用户冷启动当前推荐系统的问题冷启动问题数据稀疏性问题头部效应头部”标的物“被越来越多的用户”消费“,而质量好的长尾”标的物“由于用户行为较少,自身描述信息不足而得不到足够的关注佛系人群问题是指某些用户的倾向性和偏好不太明显,比较散乱,没有表...原创 2020-01-27 15:39:16 · 1699 阅读 · 0 评论 -
Youtube经典论文相关问题《Deep Neural Networks for YouTube Recommendations》
文章目录论文中召回阶段都用了哪些特征,哪些特征令你印象深刻?论文排序阶段用了哪些特征,哪些特征令你印象深刻?论文中训练样本怎么设置的?论文中测试样本是怎么设置的?每一个备选video都会是一个分类,使用softmax训练时有何改进?为什么不直接采用训练时的model进行预测,而是采用了一种最近邻搜索的方法?为什么不采取类似RNN的Sequence model,而是完全摒弃了用户观看历史的时序特征,...原创 2020-01-26 15:11:56 · 210 阅读 · 0 评论 -
推荐算法知识梳理
文章目录原创 2020-01-03 17:51:58 · 2489 阅读 · 0 评论