Google团队在DNN的实际应用方式的整理

全文共917个字,预计阅读时间5分钟。


很荣幸有机会和论文作者Emre Sargin关于之前发的Deep Neural Networks for YouTube Recommendations进行交流,梳理如下:

提问对话汇总:


如何进行负采样的?


构造了千万量级热门视频集合,每个用户的负采样结果来源于这个集合,会有一些筛选的tricks,比如剔除浏览过的商品,负采样的数量Google在200万条。(也就是说,在计算loss的时候,google的label是一个200万长度的向量,瑟瑟发抖.jpg。)


推荐算法应用上有什么评估方式和评估指标?


主要基于线上进行小批量的abtest进行对比,在考虑ctr指标的同时也会综合全站的信息加以分析,同时对新颖程度和用户兴趣变换也是我们考察的对象。


冷启动的解决方式?从来没有被点击过的video如何处理?新上的video如何处理


google的推荐基于多种推荐算法的组合,YouTubeNet主要解决的是热门商品的一个推荐问题,冷启动或者没有被点击的video会有其他算法进行计算。换句话说,解决不了。


example age如何定义?


user+vedio的组合形式,train过程中,是用户点击该vedio的时间距离当前时间的间隔;predict过程中,为0。该部分对模型的鲁棒性非常重要。


是否遇到神经元死亡的问题?


有,解决方案很常规,都是大家了解的,降低learning_rate,使用batchnormalization。


是否预到过拟合?


没,youtube的用户上亿,可以构造出上千亿的数据,过拟合的情况不明显。但是会存在未登录用户,我们会通过一些其他CRM类的算法补充构造出他们的基本信息,比如gender、age...


vedio vecter在哪边进行构造与修正?


history click部分进行vedio embedding,并进行修正。另外,50是我们尝试的历史点击长度,20-30也有不错的效果。


会有工程计算压力么?


不存在,建议在GPU上计算,后面由于VPN网络信号抖动没听清,大概就说Google在训练模型的时候会有大量GPU支持,每天大概更新2-3模型,没有遇到什么计算瓶颈。

(以上为我个人针对提问结果的理解及总结)


原文链接:https://www.jianshu.com/p/0337751221c7


查阅更为简洁方便的分类文章以及最新的课程、产品信息,请移步至全新呈现的“LeadAI学院官网”:

www.leadai.org


请关注人工智能LeadAI公众号,查看更多专业文章

640?wx_fmt=jpeg

大家都在看

640.png?

LSTM模型在问答系统中的应用

基于TensorFlow的神经网络解决用户流失概览问题

最全常见算法工程师面试题目整理(一)

最全常见算法工程师面试题目整理(二)

TensorFlow从1到2 | 第三章 深度学习革命的开端:卷积神经网络

装饰器 | Python高级编程

今天不如来复习下Python基础

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值