Andrew Ng的 Machine Learning 读书笔记 Lecture 4(数据归一化,调参)


数据归一化:

       归一化化定义:我是这样认为的,归一化化就是要把你需要处理的数据经过处理后(通过某种算法)限制在你需要的一定范围内。首先归一化是为了后面数据处理的方便,其次是保正程序运行时收敛加快。 
方法有如下:
       1、线性函数转换,表达式如下:
  y=(x-MinValue)/(MaxValue-MinValue)
  说明:x、y分别为转换前、后的值,MaxValue、MinValue分 别为样本的最大值和最小值。
  2、对数函数转换,表达式如下:
  y=log10(x)
  说明:以10为底的对数函数转换。
  3、反余切函数转换,表达式如下:
  y=atan(x)*2/PI
  4、式(1)将输入值换算为[-1,1]区间的值,在输出层用式(2)换算回初始值,其中 和分别表示训练样本集中负荷的最大值和最小 值。
  在统计学中,归一化的具体作用是归纳统一样本的统计分布性。归一化在0-1之间是统计的概率分布,归一化在-1--+1之间是统计的坐标分布。


解释:左右是没有经过参数归一化的,参数θ1和θ2的范围差距就会比较大,寻找最优解的过程就会比较长,右图是经过了参数归一化的,把各个特征的尺度控制在相同的范围内。

归一化首先在维数非常多的时候,可以防止某一维或某几维对数据影响过大,其次可以程序可以运行更快。

数据归一化,很重要。比如在用SVM分类时,数据尺度不统一对分类准确率影响很大。归一化一般将数据规整到一个小范围之间,如[0,1]或[-1,1],具体的方法一范求和或二范求模归一化等。


对于深度学习而言,一般尽可能将特征的范围归一化到[-1,1]或[0,1]之间

对于上述几个取值范围而言,[-100,100]的取值范围太大,[-0.0001,0.0001]的范围太小,显然都是不适合的。

下面是介绍归一化的方法:



接下来是梯度下降法调参的技巧:



解释:1、不同实际问题,迭代的次数可能是不一样的,有些问题可能需要迭代30次,有的需要3000次,但有的可能就需要3百万次,具体问题具体分析。

           2、判断你的梯度下降算法是否正常工作的是依据是,每次迭代,其代价函数都会减小。

           3、如果,在某次迭代后,如果,代价函数不降反升,要么是你的代码错了,要么就是你的学习率(迭代步长太大)导致,冲过了最优点,震荡了。

           4、如果判断迭代是否收敛,一般情况下,如果两次迭代,代价函数的减少量在10^-3级别,那么就判断已经收敛,不过,具体问题,可能判断收敛的量级是不一定的。


解释:右图是迭代步长太大的结果,会导致震荡,取不到最优解。此时应该要降低那个学习率了。如果迭代步长非常小,那么每一次迭代,其代价函数都是会减少的,但是要经过非常多次的迭代才能达到收敛。


解释,迭代步长的选择,Andrew Ng给出的建议是,学习率α的取值序列是:.....0.001,0.003,0.01,0.03,0.1,0.3,.1,......两个取值之间的差距约为3倍





  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值