用户的兴趣有长期、中期、短期。召回的时候,需要每一种都取一点。
根据端内用户群体的特征,可以对不同种类的类别再推荐的时候,可以给每一个类别一个基础分base.在用户有行为了之后,可以在进行调整。比如base + Click/Exposure
有的tag具有长实效性,有的tag具有短实效性。有些时候,你需要对用户的长实效性的tag进行一些试探。
有的tag时效性短,有的tag时效性长。因此,不同tag的用户的兴趣下降和上升的速度不一样。
关于长期、中期、短期画像的更新:
比如5天算中期画像,则获取当前用户统计后,获取前4天的,合并一起便得到中期画像。(不是所有数据都重新更新一边,是增量更新的)
对于点击是1,并且曝光也是1的,应该怎么做平滑? 答:可以计算改类别的总体点击/总体曝光。然后分别加入到分子和分母中。
Beta分布是伯努利分布的共轭先验分布。
如果参数有2个是要使用2阶的矩估计。如果参数有3个,则需要使用3阶的矩估计。
举例:某司采用一周的数据(一段时间)计算出均值和方差,然后计算每天的点击率,然后采用矩估计得出阿尔法和β
贝叶斯平滑
威尔逊区间:置信
千人千面的问题:数据存储太多,用户量大的话,可能有些计算不过来。要综合考虑收益和成本。如果非要做,那就每一个人记录画像中的tags.
如果千人一面实在是计算不过来,可以使用千人百面。把用户分成大群体,每个群体中找一些代表群体,然后就可以做了。
可以按照用户的画像,抽取一些向量出来,然后做Kmeans聚类。
聚类,除了使用tage特征外,还可以使用分桶或用户的Embeeding(方式很多,能嵌用户信息的Embedding都可以)来进行聚类,