机器学习第五周周报

摘要

本周首先通过重温之前尝试做的宝可梦和数码宝贝的分类器,复习一下做该分类器的过程,在复习这些过程的同时,来发现之前没考虑到的机器学习的问题,通过数学推导来简要分析部分机器学习的原理,我们发现训练资料数目越大,sample到坏资料的几率就越低,若|H|变小,sample到坏资料的概率也会变低。同时也开始学习了“深度学习新的优化器”这一章节,本周通过对比之前学习的一些算法,来发现这些算法的一些不足,然后进一步改进这些算法。

Abstract

First of all, we review the process of making the classifier by reviewing the classifiers of Pokemon and digital babies this week. While reviewing these processes, we can find the problems of machine learning that have not been considered before. Through mathematical derivation, we briefly analyze the principles of some machine learning. We find that the larger the number of training materials, the lower the probability of sample to bad data. And if |H| is smaller, the probability of sample to bad data will also be lower. At the same time, we also began to learn the chapter New Optimizers for Deep Learning. This week, we compared some of the previously learned algorithms to find some shortcomings of these algorithms, and then further improve these algorithms.

一、重温宝可梦和数码宝贝分类器——浅谈机器学习原理

1.首先确定function

之前有尝试做数码宝贝的分类器,这周来重温一下,来浅谈机器学习基本原理
在这里插入图片描述

(1)观察

在这里插入图片描述
通过观察,我们初步预测数码宝贝线条比较复杂,宝可梦线条比较简单,然后我们预测是否可以根据线条的复杂程度来判断是宝可梦还是数码宝贝
在这里插入图片描述
然后我们将边界化为白色,其余化为黑色,我们设置一个function来查看白色点的数量,我们随机选择一个宝可梦和一个数码宝贝,然后结果宝可梦有3558个点,数码宝贝有7389个点

(2)function with unknown parameters

在这里插入图片描述
由此我们就得到了含有未知参数的function,我们设置一个h,结果大于等于h 就是数码宝贝,结果小于h的就是宝可梦,这里出现了一个H,H指的是h的取值范围,这里白点的取值为1-10000,不存在小数的情况,|H|指的是h的取值数量,也叫模型的复杂程度。

2.Loss of a function (given data)

在这里插入图片描述
这里给定一个h来判断宝可梦和数码宝贝,如果和真实值不同,就输出1,如果相同则输出0,然后将这些所有的结果相加取平均值,就会得到错误率

(1)training examples

在这里插入图片描述
这里提出一个状况,我们收集到了全宇宙的数码宝贝和宝可梦,然后从中找到最好的一个参数,这个参数是使L最小的那个h,但实际上,我们只能从全宇宙的宝可梦和数码宝贝中选择一部分作为训练集,选择的标准遵循 i.i.d.原则,得到一个在训练集中使L最小的h

(2)理想与现实的差距

我们希望理想和现实尽可能相近
在这里插入图片描述
在这里插入图片描述
最后我们发现理想和现实还是很接近的
在这里插入图片描述
在这里插入图片描述
数学推导如下:
在这里插入图片描述
在这里插入图片描述

3.Probability of Failure

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
经过数学推导我们可以发现训练资料数目越大,sample到坏资料的几率就越低,若|H|变小,sample到坏资料的概率也会变低
在这里插入图片描述
在这里插入图片描述

4.Model Complexity

在这里插入图片描述
在这里插入图片描述
要想鱼与熊掌都兼得,那就是深度学习。

二、New Optimizers for Deep Learning

1.Some Notations

在这里插入图片描述

2.What is Optimization about?

在这里插入图片描述

3.On-line v.s. Off-line

  • On-line:one pair of (xt,y^t) at a time step
  • Off-line:pour all (xt,y^t) into the model at every time step

4.复习之前学习的方法

(1)SGD

在这里插入图片描述

(2)SGD with Momentum(SGDM)

在这里插入图片描述
在这里插入图片描述
Why momentum?
在这里插入图片描述

(3)Adagrad

在这里插入图片描述

(4)RMSProp

在这里插入图片描述

(5)Adam

在这里插入图片描述

5.Adam v.s. SGDM

我们对比Adam和SGDM两种算法,结果发现

  • Adam:fast training, large generalization gap, unstable
  • SGDM:stable, little generalization gap, better convergence
    接下来观察一下Adam有什么问题
    在这里插入图片描述
    在这里插入图片描述
    所以最终我们发现大部分的gradient都会很小,那么最后就会被小的gradient牵着鼻子走
    最后提出了一种解法
    在这里插入图片描述
    这个算法使要记住前面较大的gradient,以至于到最后不要忘记前面比较大的值,这样目的就是为了移除小的gradient所带来的影响
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值