全文共917个字,预计阅读时间5分钟。
很荣幸有机会和论文作者Emre Sargin关于之前发的Deep Neural Networks for YouTube Recommendations进行交流,梳理如下:
提问对话汇总:
如何进行负采样的?
构造了千万量级热门视频集合,每个用户的负采样结果来源于这个集合,会有一些筛选的tricks,比如剔除浏览过的商品,负采样的数量Google在200万条。(也就是说,在计算loss的时候,google的label是一个200万长度的向量,瑟瑟发抖.jpg。)
推荐算法应用上有什么评估方式和评估指标?
主要基于线上进行小批量的abtest进行对比,在考虑ctr指标的同时也会综合全站的信息加以分析,同时对新颖程度和用户兴趣变换也是我们考察的对象。
冷启动的解决方式?从来没有被点击过的video如何处理?新上的video如何处理
google的推荐基于多种推荐算法的组合,YouTubeNet主要解决的是热门商品的一个推荐问题,冷启动或者没有被点击的video会有其他算法进行计算。换句话说,解决不了。
example age如何定义?
user+vedio的组合形式,train过程中,是用户点击该vedio的时间距离当前时间的间隔;predict过程中,为0。该部分对模型的鲁棒性非常重要。
是否遇到神经元死亡的问题?
有,解决方案很常规,都是大家了解的,降低learning_rate,使用batchnormalization。
是否预到过拟合?
没,youtube的用户上亿,可以构造出上千亿的数据,过拟合的情况不明显。但是会存在未登录用户,我们会通过一些其他CRM类的算法补充构造出他们的基本信息,比如gender、age...
vedio vecter在哪边进行构造与修正?
history click部分进行vedio embedding,并进行修正。另外,50是我们尝试的历史点击长度,20-30也有不错的效果。
会有工程计算压力么?
不存在,建议在GPU上计算,后面由于VPN网络信号抖动没听清,大概就说Google在训练模型的时候会有大量GPU支持,每天大概更新2-3模型,没有遇到什么计算瓶颈。
(以上为我个人针对提问结果的理解及总结)
原文链接:https://www.jianshu.com/p/0337751221c7
查阅更为简洁方便的分类文章以及最新的课程、产品信息,请移步至全新呈现的“LeadAI学院官网”:
www.leadai.org
请关注人工智能LeadAI公众号,查看更多专业文章
大家都在看