百度技术沙龙 - 广告数据上的大规模机器学习


上个月,参加了百度技术沙龙, 夏粉的《广告数据上的大规模机器学习》讲座介绍了大规模机器学习中的若干重要问题。遗憾的是,百度的相关算法没有公开的论文。


1.  数据处理

    目标: 获取信息, 去除噪音

    机器学习技术点: 选择对点击概率分布 预估足够多样本

    解决方法: a. 不可见和不完整样本过滤; b. 样本采样; c. 异常样本检测

    算法:a. 百度 SA算法; b. Google (KDD 2013) 


2. 特征处理

    问题:大量的类型型特征和ont-hot特征导致海量特征

    目标: 选择尽可能少的特征来表示模型和数据

    机器学习技术点: 特征选择; 特征删减

    算法: a. 百度 Fea-G算法 (理论上保证无损); b. Google (新特征以概率p加入BloomFilter+次数超过n)


3. 深度特征学习

    问题: 为了描述特征之间的非线性关系,而构造高阶组合特征怎么自动化?人工构造耗时耗力且难于推广

    算法:百度 DANOVA算法, 能使得特征挖掘效率提升上千倍

        


4. 模型时效性

    问题: 模型更新的时候训练数据尽可能少

    技术挑战:时效性,稀疏性, 稳定性

    算法: 稀疏在线算法

        a. Google 保留前N次模型梯度方法, 不够稳

        b. 百度 SOA算法


5. 模型训练

    问题: 怎么寻找更好的优化方向,减少迭代的轮数

    算法: 百度Shooting算法,相比传统的LBFGS从平均50轮,降低为5轮,训练更充分


参考文献

1. Ad Click Prediction: a View from the Trenches (KDD 2013 Google)

2. Lessons learned by developing large scale practical machine learning system (Google Seti Project. Simon Tong 04/06/2010)
    



阅读更多
个人分类: 机器学习
想对作者说点什么? 我来说一句

没有更多推荐了,返回首页

关闭
关闭
关闭