十七: 大规模机器学习

1 因为大量样本训练代价比较高,建议先使用学习曲线评估是否需要这么大的数据量

2 使用随机梯度下降法替代批量梯度下降法,省去训练集求和以随机训练样本数据计算,降低代价:

   但是此方法无法保证每一步都沿着正确方向下降,也可能无法收敛到最小点,在其周边徘徊:

            

          

 收敛检查:每迭代x次,计算这x次代价均值,绘制图表如下

          

          1>  图线下降,是在收敛的

          2>  图线上下浮动不定,可增加x观察是否会下降

          3>  图线上升,模型存在问题

         训练时可以使学习率α随迭代次数增加减小,来迫使算法收敛,但这种计算消耗通常不值得;

3  小批量梯度下降,每次不是取随机一条样本,而是常数个训练实例(建议2-100),一定程度上保证了算法的表现方向。

           

4  在线学习:对动态数据流进行学习而非静态数据集

   如:大型寄件网站不断有用户咨询报价,用户提供起始地点,网站反馈报价,用户选择接受/拒绝(即结果),算法如下:

                              

   流程是类似于随机梯度下降的,因为用户每次访问都会动态的提供一条新训练样本。

   好处是:模型拥有更好的用户适用性,会随着用户群的样本倾向不断变化而产生变化。

 

5 映射简化和数据并行

对批梯度下降,对于大量训练集循环计算偏导再求和开销非常大,这个时候还有一个方法,将这个大量的训练集分配

给多台计算机(/CPU核心)去并行处理,最后再将结果求和,这样便可以加速处理,称映射简化;

如下将400个训练实例交给4台计算机处理:

 

 

 

 

 

 

------------------------------------------------------------------------------------------------------------------------------------

文章内容学习整理于吴教授公开课课程与黄博士笔记,感谢!

 

 

 

 

 

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值