自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(39)
  • 收藏
  • 关注

原创 MIND多兴趣召回实战(二)

后续我们借鉴了阿里SDM深度召回中融合长短期兴趣的方法,将用户的正向序列和负向序列各自建模一个塔,分别生成用户的正向embedding和负向embedding,对这两个embedding再以其本身生成一个gate,然后用gate将两者加权融合之后生成最终的用户兴趣向量。在对loss进行优化之后,我们的实验结果表明,相对于base版本的模型,实验组模型召回出来的商品的重复率从40%多降到33%左右,ctr,cvr等指标也有较明显的提升。》,今天想继续和大家聊聊我们在实战中对于MIND模型的改进优化。

2023-03-20 13:36:12 357

原创 MIND多兴趣召回实战(一)

这周又是居家办公,难得有时间可以好好儿梳理下之前的工作。今天想和大家聊聊我们在MIND多兴趣召回上面的一些实战经验。背景目前,深度学习U2I推荐召回模型已经在业内得到了广泛的应用与研究。大多数U2I召回模型都基于双塔结构,典型的就是DSSM。DSSM主要将user信息和item信息分别通过MLP生成user向量和item向量。然后线上通过user向量去检索topk 的item向量来做召回。然而,在很多场景,用户的兴趣往往是多样的,单一的用户向量无法充分描述用户。多兴趣召回通过用多个兴趣向量来表示用户,从

2022-04-24 16:51:01 853

原创 召回离线评估指标(二)

接着上一篇文章《召回离线评估指标(一)》,今天和大家接着聊聊推荐召回侧常用的其他离线评估指标。(1).首先定义几个符号@K: 用召回的TopK商品计算指标RecSet: 策略召回的商品序列BehSet: 用户未来N天有过交互行为的商品序列(N可以根据需要自行定义)#(): 表示count()MRR: Mean Reciprocal RankD+T: 表示从D天算起未来T天内(2).离线评估指标召回序列长度定义:Length(D 策略所有召回商品)意义:衡量策略计算结果的可用性基尼系数

2022-04-21 09:45:12 455

原创 召回离线评估指标(一)

居家办公一周了,上海疫情的“拐点”却迟迟未到,刚在小区楼下配合测完核酸,回到家里吃了口老坛酸菜面(不加酸菜包)冷静冷静。言归正传,今天想和大家聊聊推荐召回侧常用的离线评估指标。(1).首先定义几个符号@K: 用召回的TopK商品计算指标RecSet: 策略召回的商品序列BehSet: 用户未来N天有过交互行为的商品序列(N可以根据需要自行定义)#(): 表示count()MRR: Mean Reciprocal RankD+T: 表示从D天算起未来T天内(2).离线评估指标Percisio

2022-04-18 19:02:37 1513 2

原创 广告粗排技术(二)

在上一篇文章《广告粗排技术(一)》中,我们首先介绍了广告链路概览,随后重点介绍了粗排模块。在粗排模块中又重点介绍了LiteCXR模型及其行业化优化方式。今天我们开启这个系列的第二篇。LiteCXR模型常用特征(1)广告基础特征:广告主id、广告计划id、广告创意id(2)用户基础特征:年龄、性别、城市等级、受教育程度(3)用户行为相关的统计特征:用户点击广告创意id序列、用户点击广告主id序列(4)创意特征及对应前文统计特征:创意图片类型、创意标题分词等LiteCXR模型的目标(1)从召回集合

2022-04-15 16:20:54 1075

原创 广告粗排技术(一)

好久没有更新公众号了,打开后台发现似乎又新增了不少粉丝,感谢大家的支持,也感谢AINLP、浅梦学习笔记、DataFunSummit等兄弟公众号的转载分享。在2022年的开始想和大家谈谈广告粗排技术,今天算是这个系列的第一篇。广告链路概览(1)典型的广告系统是由召回-粗排-精排三层漏斗组成。(2)广告数量从最初的百万量级到最终胜出的top1。(3)各个漏斗自身通常也是复杂的链路流程。广告链路概览——粗排粗排是接在召回之后的链路,主要目标就是通过重重策略+模型,完成从几万量级到几百量级的广告粗选。

2022-04-14 10:55:27 1654

原创 浅析RTB和RTA(三)

接着上一篇文章《浅析RTB和RTA(二)》,今天我们开启这个系列的第三篇也是最后一篇。RTA(RealTime API)实例根据前面的介绍,我们会发现RTA真正发挥作用的阶段其实是检索阶段:查询对该用户有潜在付费意愿的广告账户列表,Account[n]。我们来看一个具体的例子:选定策略:根据用户价值ltv进行决策,对于某个广告账户而言都有一个期望的ltv门限值,当用户ltv<账户ltv门限值时,认为该账户没有获得该用户的曝光权的意向,也就是不会被加入后续的付费意愿广告账户列表Account[n

2022-04-13 14:55:05 1077 4

原创 金三银四得物面经

金三银四小红书面经主要和大家分享了小红书推荐算法工程师的面经,今天和大家分享下笔者在得物的面经,一共三轮技术面试,写了一道题。得物坐标:杨浦区互联宝地面试岗位:推荐算法工程师面试形式:视频面试面试难度:☆☆得物是视频面试,一共是三轮技术面+1轮hr面。一面:安排在晚上18点开始,从时间安排上似乎也闻到了“juan”的气息。面试官全程都在打哈欠,从他迷离的眼神中,我读到了疲惫与无力。简单聊了下简历上的项目,便开始了code考核,题目是搜索二维矩阵II(LeetCode240)medium题。c

2022-04-11 10:07:44 2013

原创 金三银四小红书面经

金三银四跳槽季面经(一)主要和大家分享了B站推荐算法工程师的面经,今天和大家分享下笔者在小红书的面经。相比于金三银四跳槽季面经(一)中非LeetCode原题占比较大的情况,小红书的题目基本都是LeetCode原题,其中一道medium题,一道hard题。小红书坐标:黄浦区新天地面试岗位:推荐算法工程师面试形式:视频面试面试难度:☆☆☆☆小红书是视频面试,由于笔者比较着急,因此三轮视频面试在三天内全部搞定。一面:小红书属于不按套路出牌的公司,一面面试官居然是推荐组的负责人。面试官开始也解释了一下

2022-04-10 08:59:47 2266

原创 浅析RTB和RTA(二)

接着上一篇文章《浅析RTB和RTA(一)》,今天我们开启这个系列的第二篇。RTA(RealTime API)先来看一下RTA流程图:1.为什么会有RTA?为什么会有RTA?我们必须要从需求场景进行入手。任何脱离需求场景而讨论技术方案的行为都是耍流氓。首先将结论同步下,RTA的产生很大的一部分原因是广告平台侧数据的缺失,无法解决实时的定向。举个例子,比如有这么一个广告主,他希望针对已安装不活跃的用户进行拉活,但是绝大部分的广告平台(排除厂商拥有系统权限之外)都只知道应用是否安装的状态,但是并无法知

2022-04-09 09:52:35 3174

原创 浅析RTB和RTA(一)

上一个系列主要给大家介绍了广告系统中的Exploitation and Exploration,今天我们开启全新的系列——浅析RTB和RTA。RTB(RealTime Bidding)实时竞价模式整个RTB广告产业链主要包含以下六大角色:1.首先还是先抛出一些广告系统术语AMS: Advertising Management System广告管理系统DSP: Demand Side Platform需求方平台DMP: Data Management Platform数据管理平台ADX: Ad

2022-04-07 14:10:13 2232

原创 广告系统中的Exploitation and Exploration(二)

上一篇文章《广告系统中的Exploitation and Exploration(一)》主要介绍了背景与相关算法,今天我们继续介绍几种相关的算法以及MAB问题与实际广告系统的区别与联系。相关算法介绍UCB(Upper Confidence Bound Algorithms)学过统计的都应该知道,通过实验观察,统计得到的arm平均收益,并不是真实收益。就像抛硬币实验,正面朝上的概率是0.5,实验10次,正面朝上的次数有可能6次,也有可能是4次。抛硬币实验,正面朝上的概率,符合伯努利分布(the B

2022-04-06 22:08:35 151

原创 广告系统中的Exploitation and Exploration(一)

上一个系列主要和大家详细探讨了广告竞价模式,今天我们来聊聊广告系统中的Exploitation and Exploration。背景介绍广告系统是一个持续运转的系统,不停的有新创建的广告被投放,参与到竞价排序中。对于投放时间较长、曝光充足的广告(以下称为老广告),CTR预估比较准确,而对于投放时间较短、曝光少的广告(以下称为新广告),由于缺乏历史表现数据,CTR预估的准确率不如老广告。面对一次广告曝光请求,广告系统有两种选择。一种是采取最大化收益的策略,根据历史表现,选择ecpm最高的广告(Explo

2022-04-04 10:21:24 305

原创 漫谈广告竞价模式(七)

上一篇文章《漫谈广告竞价模式(六)》主要和大家探讨了oCPM与oCPC的动态调价因子以及两者的区别,今天我们开启这个系列的最终篇。什么是oCPX双目标出价?广告主新建广告时,可设定浅层优化目标+深层优化目标,开启双出价,例如激活+付费。这种模式主要是因为深度转化数据稀疏,直接作为优化目标可能成本难以控制,通过双目标出价,分阶段完成整个广告投放,如下图:第一阶段:在深层转化积累较少时,优化浅层目标成本,同时积累深度转化数据量,积累充分后自动进入第二阶段第二阶段:放开浅层成本限制,仅优化深度目标成本,

2022-04-02 16:52:30 1268

原创 漫谈广告竞价模式(六)

上一篇文章《漫谈广告竞价模式(五)》主要和大家探讨了oCPM与oCPC最容易理解偏差的点以及智能出价相关的内容,今天我们开启这个系列的第六篇。oCPM与oCPC为什么还有动态调价因子?oCPM或者oCPC这些广告模型都有一个动态的调控因子,即 oCPM = CPA * PCTR *PCVR * β;动态调价因子出现的主要原因有三个:(1)竞争环境不充分导致广告主实际的激活成本低于设置目标成本大部分的广告系统都是二价计费的系统,总会存在竞争并不是很充分的情况,由于广告计费的CPM 是根据广告主的CPA

2022-04-01 12:58:23 559

原创 漫谈广告竞价模式(五)

上一篇文章《漫谈广告竞价模式(四)》主要和大家探讨了oCPX模式出现的背景以及不同广告出价模式对于广告主和流量方的影响,今天我们开启这个系列的第五篇。oCPM与oCPC最容易理解偏差的是哪个点?1.计费点与出价点是分离的广告的一般流程是:曝光,点击,转化,深度转化(比如付费,注册等),通常广告的出价点跟计费点是在同一个点,比如CPC 即广告主按点击出价,广告平台按点击扣费。oCPM以及oCPC 广告主的出价是在转化或者深度转化上,而计费则是曝光(CPM)或者点击(CPC)上。这个与我们常规的思维模式有

2022-03-31 09:34:38 434

原创 漫谈广告竞价模式(四)

上一篇文章《漫谈广告竞价模式(三)》主要和大家探讨了CPM和CPC应该如何选择以及CPA模式的困境,今天我们开启这个系列的第四篇。oCPX模式出现的背景根据前面CPA模式困境的表象分析,我们结合四点三率来从原理上分析CPA。比如,把计费点和出价点移动到a,这也就是CPA的模式,如下图所示:如果a行为的数据,也是媒体平台能完全收集的,那么没有问题,CPA模式也是成立的。例如媒体平台是淘宝,广告主推广自己在淘宝的产品,那么淘宝可以完全掌控a的行为,那么做CPA(甚至CPS)都是可以的。如果a行为的数据

2022-03-29 10:25:59 592

原创 漫谈广告竞价模式(三)

上一篇文章《漫谈广告竞价模式(二)》主要和大家聊了广告竞价的“四点”和“三率”,今天我们开启这个系列的第三篇。CPM和CPC应该如何选择通过上一篇文章中四点三率的分析,我们可以得出一个结论:CPC相对于CPM对广告主和媒体平台来说更友好。(1) 对广告主的影响如果考核点在c以及c之后,从CPM到CPC,广告主的利益得到了很大的保证。原来广告主用固定值预估p(m/c),会非常不准,而且不管偏高还是偏低,都会对广告主的ROI或者拿量产生负面影响。而在CPC中,p(m/c)属于竞价点/计费点这一段。这个值

2022-03-28 09:31:00 511

原创 漫谈广告竞价模式(二)

接着上一篇文章《漫谈广告竞价模式(一)》,今天我们开启这个系列的第二篇。广告竞价四点竞价点:其实不管是CPM,CPC还是后续的CPA,oCPM,oCPC,双出价等所有出价模式,绝大多数媒体平台最终都是根据换算公式,将出价换算成eCPM,再对eCPM排序后,选择eCPM最高的广告进行展现。这样媒体每个展现机会的收益可以很直接地被度量,也能最大化自身的利益。计费点:即媒体平台最后是按照什么规则来收取广告主的钱。例如CPM中,是按照展现次数来收费,那么计费点就是Mille。而在CPC广告中,虽然按照eCPM

2022-03-27 14:10:56 4954

原创 漫谈广告竞价模式(一)

今天我们开启一个新的系列《漫谈广告竞价模式》。首先我们来看下计费模式,一般计费模式包括CPM(按照曝计费)、CPC(按照点击计费)、CPD(按照下载计费)、CPI(按照安装计费)、CPS(按照销售计费)等等。每一种模式都是平台、媒体、广告主的博弈结果,是符合纳什均衡的。互联网广告计费是从CPT开始的,即按照时长付费,后来到CPM,即按照每千次展现付费;1998年,Overture推出了CPC模式,2002年谷歌引入CPC模式,成就了搜索广告的计费标杆;后来出现了CPA计费模式,包含注册、购买、安装、预约

2022-03-26 09:25:46 1503

原创 知识蒸馏在广告系统中的应用(二)

上篇文章《知识蒸馏在广告系统中的应用(一)》主要和大家聊的是一些基本的背景,今天我们将重点看看在实战中知识蒸馏是如何在广告系统的各个阶段发挥作用的。1.在召回/粗排阶段使用知识蒸馏在上一篇文章中我们也谈到,召回和粗排阶段的主要任务是在保证一定精确性的前提下,对广告进行粗筛,缓解精排的压力。需要在准确性和速度方面找到一个平衡点,所以,在这两个阶段,我们并不需要追求最高的精度,就算模型的效果和精排有一定的差距,也是完全可以接受的。毕竟在这两个阶段,如果准确性不足还是可以通过返回物品的数量多来弥补的。而模型小

2022-03-25 13:26:12 3357

原创 知识蒸馏在广告系统中的应用(一)

上篇文章主要和大家聊的是强化学习在推荐混排中的应用,今天我们会开启一个全新的系列“知识蒸馏在广告系统中的应用”。本文将主要涉及第一部分——背景介绍。背景介绍大致分为三块:简述广告系统的架构、简述知识蒸馏、简述为什么要将知识蒸馏引入到广告系统中。1.广告系统架构传统的广告系统一般可以粗略地分为两个阶段,召回阶段和排序阶段。召回阶段主要负责从海量的广告库里,快速找回一小部分用户潜在感兴趣的广告,交给排序;排序阶段主要负责对这一小部分用户潜在感兴趣的广告打分,取topN返回。召回的特点是快且相关性强.

2021-05-15 11:30:33 237

原创 强化学习在推荐混排中的应用

上篇文章主要和大家聊的是广告智能定向技术之lookalike,今天想和大家谈谈强化学习在推荐混排中的应用。0.什么是强化学习强化学习是机器学习中的一个领域,强调如何基于环境而行动,以取得最大化的预期利益。强化学习是除了监督学习和非监督学习之外的第三种基本的机器学习方法。<A,S,R,P>就是强化学习中的经典四元组了。其中A代表的是Agent的所有动作;State是Agent所能感知的世界的状态;Reward是一个实数值,代表奖励或惩罚;P则是Agent所交互世界,也被称为model。

2021-05-10 14:40:27 636

原创 广告智能定向技术lookalike

《广告流量分析之评价指标的选择(一)》和《广告流量分析之评价指标的选择(二)》主要介绍了cvr、ocpa、ctr等评价指标的选择方式。今天想和大家聊聊广告智能定向之lookalike技术。0.什么是lookalike?一句话简单来说:广告主给定高质量的种子用户,系统需要自动发现类似的人群做投放。举个栗子,如果广告主提供的种子人群是持有某种信用卡的客户,那么相似人群就是在某些方面和种子人群相似。如果相似人员没有持有卡,那么他们也是有极大的可能去开卡的。1.为什么要做lookalike?..

2021-05-07 15:44:13 689

原创 广告流量分析之评价指标的选择(二)

接上文《广告流量分析之评价指标的选择(一)》今天我们聊聊ctr指标与oCPA指标。案例二:CTR预估评价(分清指标所处的阶段)做广告算法的同学应该都熟悉CTR预估的概念,计算广告预估曝光出去后被点击的概率。在我们的系统中,有两个阶段存在CTR预估问题,粗排(LiteCTR)阶段、精排(pCTR)阶段。最近在分析流量的数据时,遇到一个现象: LiteCTR bias 与pCVR bias 相差不大,在某些时间甚至更好,就猜想既然LiteCTR和pCTR效果差不多,那在精排中用LiteC..

2021-04-10 18:30:02 763

原创 广告流量分析之评价指标的选择(一)

上一篇文章主要聊了下《转化率模型之转化数据延迟》,今天我们将开启一个新的系列,广告流量分析之评价指标的选择。在平时做AB实验的时候,我们常常遇到一种奇怪的现象“线上效果与线下的分析结论不一致”,为什么会存在这种现象呢,这里通过几个实际案例和大家具体聊聊。案例一:转化率评价(需要明确自己的关注目标)我们都知道,转化率(转化数/点击数)是评价广告主转化的一种指标。在实验过程中,经常会遇到整体转化率上涨,而对应每个广告主的转化率下降的现象。具体看一个例子: 对照组 ...

2021-04-04 17:12:22 762

原创 转化率模型之转化数据延迟

前几天在公司内网上看见有同事在讨论《广告算法工程师的日常》这篇文章里面提到的A、B、C三位同学在实际的晋升中谁的优势更大,其实当时举这个例子,本意只是想说明广告算法工程师在迭代优化模型的过程中,要相信数据>特征>算法本身,在遇到问题的时候能够优先从数据以及特征层面考虑。至于说谁在晋升中优势更大,大家仁者见仁、智者见智哈。好了,今天主要想和大家聊聊“刘西瓜”,话说这个刘大统领…;额,不好意思,串台了哈。言归正传,今天和大家讨论一下转化率模型中转化数据延迟的问题。这个问题无论是在浅层转化(.

2021-04-02 17:13:38 742 2

原创 广告成本控制-PID算法

今天我们来聊聊广告成本控制中常用的PID算法。0.PID算法简介首先我们可以看下维基百科中给PID算法的定义:由比例单元(Proportional)、积分单元(Integral)和微分单元(Derivative)组成。可以透过调整这三个单元的增益Kp, Ki和Kd来调定其特性。PID控制器主要适用于基本上线性,且动态特性不随时间变化的系统。PID算法可以用下面的公式表示:好的,看完上面“好官方”的定义,我们急需一个简单的“栗子”来理解。假设我有一个水缸,最终的控制目的是要保证水缸里的水位永.

2021-03-27 15:36:10 1603

原创 点击率预估与冷启动(二)

上一篇文章点击率预估与冷启动(一)咱们说到了键值储存网络,今天我们接着往下说。键值储存网络实现了字典特征到向量的转换,而我们希望得到的是连续值特征到向量的转换。我们其实只需要再实现连续值到字典特征的转化就大功告成了。虽然连续值特征到向量很难,但是连续值特征到字典特征的实现方式却有很多。假定有了连续值特征到字典特征的转化,那么总体架构和键值记忆网络基本一致,如下图所示:连续值特征到字典特征的转化即图中的Key-Value Memory,如何实现这部分应当结合具体业务场景的数据...

2021-03-20 10:59:47 261

原创 点击率预估与冷启动(一)

点击率预估与冷启动(一)之前一篇文章和大家聊了下《转化率模型与校准》,今天咱们来聊聊点击率预估以及冷启动的问题。有些读者在看完之后可能会发现这两者之间的微妙的联系。废话不多说,开启今天的旅程。0. 问题介绍推荐系统和广告算法中,对于新用户或者新内容,记录很少,如果我们直接将历史点击率作为特征,会存在问题。比如(1). 新用户A有2条浏览记录,1次点击,点击率50%(2).老用户B有2条浏览记录,0次点击,点击率0%A和B,只因为1次点击,点击率就相差50%,这不合理。显然,问题.

2021-03-14 12:50:09 567

原创 多任务学习(MTL)在转化率预估上的应用

今天主要和大家聊聊多任务学习在转化率预估上的应用。多任务学习(Multi-task learning,MTL)是机器学习中的一个重要领域,其目标是利用多个学习任务中所包含的有用信息来帮助每个任务学习得到更为准确的学习器,通过使用包含在相关任务的监督信号中的领域知识来改善泛化性能。深度学习流行之后,MTL在深度网络也有很多尝试和方法。(0).背景介绍名词定义:CTR: 指曝光广告中,被点击的广告比例CVR: 指被点击的广告中,最终形成转化的广告比例CTCVR: 指曝光广告中..

2021-03-11 20:21:21 452

原创 oCPC中转化率模型与校准

oCPC中转化率模型与校准:https://mp.weixin.qq.com/s/d3O9Oj_AwHuGL6pHIql_Hg欢迎关注微信公众号:计算广告那些事儿

2021-03-08 11:17:00 193

原创 广告主成本怎么又超了!

广告主成本怎么又超了:https://mp.weixin.qq.com/s/iVv6aO-DQJ8YB8T5kenzQg欢迎关注微信公众号:计算广告那些事儿

2021-03-08 11:16:09 97

原创 玩儿转oCPC产品

玩儿转oCPC产品:https://mp.weixin.qq.com/s/n26qRKimzN9p4Pb5oH_wlw欢迎关注微信公众号:计算广告那些事儿

2021-03-08 11:15:03 94

原创 OCPC产品初探

OCPC产品初探:https://mp.weixin.qq.com/s/E0k9D9TRWpbRG_gPpIrJbQ欢迎关注微信公众号:计算广告那些事儿

2021-03-08 11:13:42 187

原创 广告算法工程师的日常

广告算法工程师的日常:https://mp.weixin.qq.com/s/seF9eqBIncOBRQUaqQb0Sw欢迎关注微信公众号:计算广告那些事儿

2021-03-08 11:12:48 143

原创 广告模型初探(三)

广告模型初探(三):https://mp.weixin.qq.com/s/jTQOPobNPr96GTj0BDQiWQ欢迎关注微信公众号:计算广告那些事儿

2021-03-08 11:10:59 117

原创 广告模型初探(二)

广告模型初探(二):https://mp.weixin.qq.com/s/5eIxApPG_dNNXssJHMKzeA欢迎关注微信公众号:计算广告那些事儿

2021-03-08 11:10:05 110

原创 广告模型初探(一)

广告模型初探(一):https://mp.weixin.qq.com/s/b6tTbug_Xd9OPFy2lA650g欢迎关注微信公众号:计算广告那些事儿

2021-03-08 11:08:08 182

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除