需求
在推荐系统场景中,如果基础行为数据太少,或者过于稀疏,通过推荐算法计算得出的推荐结果很可能达不到要求的数量。
比如,希望针对每个item或user推荐20个item,但是通过计算只得到8个,剩下的12个就需要补全。
欢迎转载,请注明出处:
http://blog.csdn.net/u010967382/article/details/39674047
策略
数据补全的具体策略是:
- 补全时机:在挖掘计算结束后,挖掘结果导入HBase(最终web系统从HBase取数据)前,进行数据补全,补全后的数据再导入HBase。(还有另外一个可选时机,在接到请求后再在程序中实现补全,但这样的效率肯定没有直接从HBase中读数的高,所以空间换时间是更为合理的策略);
- 实现技术:补全过程基于HIVE实现;
- 补全数据:测试过程使用当前浏览item同分类下近一段时间的浏览量TopN;
- 测试场景:本文仅针对“看了又看”进行数据补全实验,其它推荐需求类似。
实验过程