百度技术沙龙 - 广告数据上的大规模机器学习

原创 2014年05月03日 14:00:40


上个月,参加了百度技术沙龙, 夏粉的《广告数据上的大规模机器学习》讲座介绍了大规模机器学习中的若干重要问题。遗憾的是,百度的相关算法没有公开的论文。


1.  数据处理

    目标: 获取信息, 去除噪音

    机器学习技术点: 选择对点击概率分布 预估足够多样本

    解决方法: a. 不可见和不完整样本过滤; b. 样本采样; c. 异常样本检测

    算法:a. 百度 SA算法; b. Google (KDD 2013) 


2. 特征处理

    问题:大量的类型型特征和ont-hot特征导致海量特征

    目标: 选择尽可能少的特征来表示模型和数据

    机器学习技术点: 特征选择; 特征删减

    算法: a. 百度 Fea-G算法 (理论上保证无损); b. Google (新特征以概率p加入BloomFilter+次数超过n)


3. 深度特征学习

    问题: 为了描述特征之间的非线性关系,而构造高阶组合特征怎么自动化?人工构造耗时耗力且难于推广

    算法:百度 DANOVA算法, 能使得特征挖掘效率提升上千倍

        


4. 模型时效性

    问题: 模型更新的时候训练数据尽可能少

    技术挑战:时效性,稀疏性, 稳定性

    算法: 稀疏在线算法

        a. Google 保留前N次模型梯度方法, 不够稳

        b. 百度 SOA算法


5. 模型训练

    问题: 怎么寻找更好的优化方向,减少迭代的轮数

    算法: 百度Shooting算法,相比传统的LBFGS从平均50轮,降低为5轮,训练更充分


参考文献

1. Ad Click Prediction: a View from the Trenches (KDD 2013 Google)

2. Lessons learned by developing large scale practical machine learning system (Google Seti Project. Simon Tong 04/06/2010)
    



百度技术沙龙 - 广告数据上的大规模机器学习

上个月,参加了百度技术沙龙, 夏粉的《广告数据上的大规模机器学习》讲座介绍了大规模机器学习中的若干重要问题。遗憾的是,百度的相关算法没有公开的论文。 1.  数据处理     目标: 获取信息, ...
  • u010872254
  • u010872254
  • 2014年05月03日 14:00
  • 3540

大规模机器学习

随机梯度下降与在线学习算法
  • loveSophiaW
  • loveSophiaW
  • 2017年02月26日 10:35
  • 142

百度技术沙龙-大规模分布式存储

MooseFS 调度使所有节点磁盘读写趋同 Master--单点瓶颈 Redis应用数据 数据量:2TB,600哥示例 Twemproxy,Twitter的一个访问代理 MetaServe...
  • dipolar
  • dipolar
  • 2015年08月15日 19:40
  • 339

百度大规模时序数据存储(三)| 核心功能设计

作者简介运小尧    百度高级研发工程师负责百度运维大数据存储平台的设计和研发,致力于追求大规模存储系统的高性能和高可用。前文回顾百度大规模时序数据存储(一)| 监控场景的时序数据百度大规模时序数据存...
  • g2V13ah
  • g2V13ah
  • 2017年11月17日 00:00
  • 349

互联网广告系统综述八机器学习与数据

互联网广告系统综述八机器学习与数据 声明: 1)该博文是整理自网上很大牛和专家所无私奉献的资料的。具体引用的资料请看参考文献。具体的版本声明也参考原文献 2)本文仅供学术交流,非商用。所以每一部分...
  • guohecang
  • guohecang
  • 2016年10月19日 15:02
  • 515

大规模机器学习的相关资料集锦

大规模机器学习是大数据分析与挖掘的重要支撑工具,经过查找,网上QURA有个整理比较好的文献,采用下来,以供大家使用。 转载地址:https://www.quora.com/What-are-som...
  • sparkexpert
  • sparkexpert
  • 2015年10月22日 15:02
  • 1126

数据科学之机器学习13: 关联分析

标题图片出处:Rule Generation “文章原创,转载请注明出处” 一、简介 在统计学中,变量与变量之间的关系是统计结构的重要参数,统计的核心问题也就是研究变量与变量之间的关...
  • QQ415171148
  • QQ415171148
  • 2014年05月09日 14:52
  • 877

什么是“大规模机器学习”

海量数据场景下,通过大规模机器学习方法来充分挖掘数据集中的价值已经在很多公司里都有着非常多的应用了,相关的资料也已经很多,但仍谈不上非常的系统。 将门经本人许可,转载了大规模机器学习...
  • xxylql
  • xxylql
  • 2017年05月01日 15:30
  • 346

机器学习13大规模数据集

大型数据集的学习(Learning With Large Datasets) 如果我们有一个低方差的模型, 增加数据集的规模可以帮助你获得更好的结果。  我们应该怎样应对一个有 100 万条记录的...
  • weixin_37289816
  • weixin_37289816
  • 2017年02月16日 22:35
  • 111

互联网广告系统综述八机器学习与数据

互联网广告系统综述八机器学习与数据 写好标题,却迟迟不知道怎么动手,最近机器学习的一个分支——深度学习,真是火得没朋友啊,过去十几年的最热门的核方法,被成功的放到一边去了,整个工业界开始重新聚焦到神...
  • mytestmy
  • mytestmy
  • 2014年11月09日 00:04
  • 3664
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:百度技术沙龙 - 广告数据上的大规模机器学习
举报原因:
原因补充:

(最多只允许输入30个字)