目的:当一个新用户进来的时候,我们没有他的历史行为记录,就需要一个策略来快速探索用户的兴趣点以便留住客户。
EE问题:
EE问题又叫exploit-explore问题。Exploite就是对用户比较确定的兴趣,推荐响应的内容来吸引用户,Explore就是探索用户新的兴趣点,可以长期留住客户。
Bandit算法:
用分类或者topic来表示用户兴趣,我们可以通过几次试验,来获得用户对每个类别的感兴趣概率。如果用户对推荐的列表表示感兴趣,则获得收益,反之,则获得损失。如此经历“选择-观察-更新-选择”的循环,理论上就可以学习到用户真正感兴趣的类别。
- Thompson Sampling算法
假设用户对每个类别感兴趣的概率符合beta(wins, lose)分布,每次推荐之前,对于每一个类别,根据beta分布产生一个随机数b,选择随机数中最大的一个类别推荐给用户,然后,有收益则该类别的wins加一,反之lose加一。
Beta分布:
Beta(a,b)分布是一个定义在[0,1]区间上的连续概率分布族,因此Beta分布可以描述0~1区间内的形状(事件),为某件事或者成功的概率建模。
Beta分布有两个参数a和b,这两个参数决定了分布的形状。
- 均值=a/(a+b),均值越大,概率密布分布的中心越靠近1,依据此概率分布产生的随机数都靠近1,反之则靠近0.
- 方差=ab/((a+b)^2(a+b+1)