吴恩达机器学习笔记week17——大规模机器学习 Large scale machine learning

17-1.学习大数据集 Learning with large datasets

在这里插入图片描述
对于数据量大的数据集,可以有时随机抽取小的数据集?在这里插入图片描述

17-2.随机梯度下降 Stochatic gradient descent(改进)——一次迭代1个数据,慢慢修正参数

梯度下降:
在这里插入图片描述
第一步,随机打乱数据
两者对比:批量梯度下降 VS 随机梯度下降 (更快)
在这里插入图片描述
随机梯度下降是一步一步曲折的达到最优点, 在一个范围内反复震荡,最后逐渐接近全局最小值
批量梯度下降是一步直达最优点,直接收敛到全局最小值

m>>n ???

17-3.Mini-Batch.梯度下降 Mini-Batch gradient descent——一次迭代b个数据,慢慢修正参数

三种梯度下降算法的联系:
在这里插入图片描述
完整代码:
在这里插入图片描述
Mini-Batch.梯度下降比批量梯度下降快
Mini-Batch.梯度下降比随机梯度下降快:当你有一个好的向量化方式a good vectorized implementation

多一个参数minibatch_size 一般2~100都可以接受

17-4.随机梯度下降收敛 Stochastic gradient descent convegence——确定何时能收敛&&选择合适的学习率

  • checking for convergence
    在这里插入图片描述
    随机梯度下降:在前1000个数据上表现得有多好,所以要先打乱数据
    批量数据下降:每次得到J_theta必须遍历整个数据集

  • 重点难点:好好理解
    前1000组样本的cost函数平均值图(迭代一次1000个数据,获得一个数据点):
    在这里插入图片描述
    1-学习率越小,震荡范围就越小,有时能获得更好的参数值
    2-迭代训练样本数量越大(1000->5000),得到的图像越平滑
    3-图像显示损失并没有下降,考虑提高训练样本数量,即1000->5000;若还不能下降,考虑调整学习率或调整特征
    4-图像显示损失上升,算法发散的信号,需要使用更小的学习率

  • 有关学习率
    使学习率随时间变化而减小,每一步越来越精确,最终收敛到全局最小值(如果不变,可能收敛到局部最优解)一般情况下学习率为常数
    常用方法见下:
    在这里插入图片描述

17-5.在线学习 Online learning——一种大型机器学习机制(模型化一些问题)应用于有大量数据流的问题

标准的机器学习算法拥有一个固定的训练集,在线学习算法没有
向用户推荐他们感兴趣的新闻或手机
从数据流中学习
大数据杀熟?
解决问题:托运价格
在这里插入图片描述
逻辑回归
得到一个顾客数据,优化一次(类似随机梯度下降区别在于数据集是否固定)
适用于改变的用户偏好

解决问题2:产品搜索应用
点击率预测学习问题 CTR预测
协同过滤算法可以用来提供更多的特征
在这里插入图片描述

17-6.减少映射与数据并行 Map-reduce and data parallelism

有多个机器并行计算
在这里插入图片描述
考虑到网络延迟
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值