强化学习在锦囊位置调控上的探索和实践

最新推荐文章于 2024-06-16 22:42:04 发布

云栖社区v

最新推荐文章于 2024-06-16 22:42:04 发布

阅读量424

点赞数

一、背景

在手淘的搜索中，当用户输入query进行搜索之后，一方面有适合他的商品展现出来，另一方面，如何更好地理解用户意图，为其推荐更合适的关键词进行细分查找，从而更高效的引导用户到他想找的商品，也是一件非常重要的事情。

因此在手淘搜索场景下，我们以“锦囊”这种产品形态来承载对用户意图的理解和细分，关于锦囊更完整的介绍请见：https://www.atatech.org/articles/80706

同时锦囊的内容也分了不同的类型，比如从标题抽取出来的tag标签，相关搜索，以及和query相关的品牌和其它的各种属性值，如裙长，袖长等。如下图所示：

在这里，我们主要解决的问题是如何根据用户的历史以及实时行为，在当前query下，为他推荐更合适的锦囊类型，比如有的用户对品牌感兴趣，有的用户对风格感兴趣，那么就会根据实时的信息，在合适的页面展现合适的锦囊类型。以提高用户对锦囊的点击率，进而提升引导效率。

二、系统框架

整个强化学习位置调控是一个在线实时训练的过程，其框架图如下所示：

porsche：Porsche，是一个强大的机器学习平台，更多介绍可参考：http://porsche.alibaba-inc.com ，我们的实时日志处理，以及强化学习的实时训练均跑在porsche平台上，通过porsche平台，输出两个数据，一是强化学习的模型参数，直接写入dii引擎内存中，二是用户的实时行为序列，写入igraph中

锦囊模块：在判断具体出什么类型的锦囊时，需要的数据有用户的实时行为序列，从igraph中获取，同时还要从dii内存中获取强化学习的模型参数，然后综合判断当前需要出的锦囊类型。同时在当前session下，还需要实时的将已经出现过的类型写入igraph中，当用户再次翻页的时候，不会出现重复的锦囊类型。

三、基于强化学习的建模

3.1 强化学习简介

强化学习主要是通过与环境交互中的trail-and-error，来不断找到能使得累计奖赏最大的策略一种学习方法。

在Model-Free的强化学习中，主要有两类方法，一类是Value-Based的方法，即利用值函数估计来选择最优的动作（比如Q(s,a)），也相应得到了更优的策略，比如Q-learning，SASAR，DQN等，另一类是Policy-Based的方法，采用直接优化策略的方法，比如TRPO，A3C等。我们在锦囊调控的任务中主要使用过A3C，DQN两种方法。

1. DQN

DQN是DeepMind在用DRL探索Atari游戏时提出的，其主要框架就是在传统的Q-learning方法中引入了DNN（CNN）来进行学习，并在此基础上加入了Experience Replay，Targrt Network等技巧，并在很多游戏上达到甚至超过人类玩家水平。在之后的几个工作里，也进行了进一步的完善和提高（Prioritised Replay， Double DQN，Duelling Network等等）。其中Nature版本的DQN伪代码如下所示：

2. A3C

A3C算法的全称是asynchronous advantage actor-critic，其中actor-critic是在一般的policy-based方法中，也引入了值函数估计的方法来减少方差，如下图：

而在利用bias term技术来减小方差时，采用了Advantage function来作为bias:

算法基本逻辑如下图：

3.2 问题建模及实现

当用户在搜索中发出一个query，看到页面，把当前页面下用户的一些特征作为此时的状态，我们要学习的策略就是在这种状态下应该给出什么类型锦囊，从而转移到下一个页面下，reward也应该根据目标进行设定。

1. state

我们设计State能包含用户在当前query下的特征以及此时的实时特征,主要有：

1.1长期特征

User 特征：性别，年龄，购买力等

User 历史上对锦囊综合的以及各类型锦囊的展现点击等情况；

Query的特征；

当前Query下锦囊综合的以及各类型锦囊的展现点击等点击情况；

……

1.2实时特征

当前所在Page；

当前页之前用户最近100次 PV中对各类型的点击情况；

用户最近五个动作类型（点击，浏览，购买等）；

用户最近点击的五个商品的特征；

……

2.动作

我们学习的目标就是在当前页，对于特定用户状态，出什么类型的锦囊，因此这里我们直接把要出的锦囊类型作为动作。如下图：

3. 奖赏函数

Reward Function决定了我们想要引导锦囊agent去优化的方向，也即是优化目标。当我们设定了不同的目标时，reward应该做出相应的调整: 单纯最大化锦囊的CTR时，可以有类似下面的设定（其中，x表示当前query下点击的锦囊的页码）

再结合引导成交等需求，可以有类似如下的设定：（其中，y, z, I代表翻页页数，点击次数，是否购买）

3.3 学习算法

1. A3C

锦囊候选类型，一开始没有引入属性pid类型，锦囊类型只有有限的几种，如相关搜索、选购热点、细选等，因此我们采取了A3C算法，直接把类型当做动作，用critic网络来学习值函数，用Actor网络来学习policy，actor网络最后输出的值经过softmax可以认为是采取各个动作的概率值，Actor网络形式如下所示：

2. DQN

当我们把属性pid引入到锦囊中后，候选的锦囊类型(即动作)一下子增加到两万多种。如果我们还是采用之前的A3C方法，网络的输出需要有两万多个节点，显然是不适用的。因此，我们采取了用DQN+类型ID Embedding的形式来进行学习。也就是说，对每一个候选动作a，先进行embedding，再和s过来的节点进行concat，之后学习的就是他们的Q值，然后再每一个具体query下进行选择的时候，计算每一个可选的ID的Q value，从而进行决策，这里只用到了一个网络。如下图：