说明:本文为本人学习本课程的笔记,课程链接为
【(强推|双字)2022吴恩达机器学习Deeplearning.ai课程】
https://www.bilibili.com/video/BV1Pa411X76sp=8&vd_source=1a7101e2cd4837c57a0824d2cc5a5e56
如需要更深层次地掌握知识,请自行学习视频课程。
第六章 多元线性回归及其梯度下降法(二)
6.1 特征缩放
如图,在房价及其相关因素模型中,对于不同的x,其对应的参数w也不同。
如果参数w的选择不合理,那么对于一组x,f的取值也会不合理。
因此,选择合适的w是至关重要的,对于一些变化大的x,其参数w可能就要选的小一些;反之,对于较小的x,参数w可能就要偏大。
但是,对于任何一组 ,其学习率α都是相同的,这就导致了当某一个w较小时,这个w相对于其他的w,更加容易在一次梯度下降运算中超过最佳值。
因此,对x进行标准化,以限制w的范围,就能够使得代价函数尽快收敛于最小值。
下面介绍几种标准化方法:
1.直接放缩法
对于一组符号相同的数,将每个数据都除以这组数据中的最大值。
放缩后所有的数据都在区间 (0,1) 内。
2.归一化法
对于最大值为 ,最小值为
的一组数据
,对于其中的一分量
归一化法的公式为:
其中,μ为样本均值,归一化后的区间长度为1
3. 正态分布(Z分布)标准化法
公式为:
其中,μ为样本均值,σ为样本标准差,当样本符合正态分布时可以使用此方法,此时绝大部分x会落入区间(-3,3)内。
并不是所有的样本都需要标准化,当样本的范围适中的时候,即使不标准化样本也并无大碍。
但当样本的最值过大或者过小的时候,就应该考虑采取适当的方法标准化样本。
6.2 学习率与梯度下降法的收敛性
在使用梯度下降法时,应时刻注意方法是否收敛。
上图左边为代价函数-迭代次数曲线,能够看到,随着梯度下降法运行次数的增加,代价函数的值逐步减小,这说明梯度下降法运行良好。
代价函数-迭代次数曲线能够判断梯度下降法是否正常运行,当代价函数随着迭代次数的增加而上升的时候,表示方法出现了问题。
在程序中,也可以用一个较小的值 ε 来判断方法是否收敛,但这种方法并不直观。
如图,当学习率设置得过大或者程序出现逻辑错误的时候,方法并不收敛。
而当学习率设置得过小的时候,程序运行较慢。
因此,在方法收敛的前提下,应寻找尽可能大的学习率以加快程序运行速度。
下面介绍一种方法,从小到大逐个测试合适的学习率:
从一个较小的,10的整数次方的值开始,第一次增加三倍,第二次增加到初始值的10倍。
每次近似将学习率扩大到原来的三倍,直到方法不收敛,就能够得到和最优值接近的学习率。
6.3 特征工程与多项式回归
(1)定义
- 特征工程(Feature Engineering)特征工程是将原始数据转化成更好的表达问题本质的特征的过程,使得将这些特征运用到预测模型中能提高对不可见数据的模型预测精度。
- 特征工程简单讲就是发现对因变量y有明显影响作用的特征,通常称自变量x为特征,特征工程的目的是发现重要特征。
- 如何能够分解和聚合原始数据,以更好的表达问题的本质?这是做特征工程的目的。 “feature engineering is manually designing what the input x’s should be.” “you have to turn your inputs into things the algorithm can understand.”
- 特征工程是数据挖掘模型开发中最耗时、最重要的一步。
(2)意义
- 特征工程是一个包含内容很多的主题,也被认为是成功应用机器学习的一个很重要的环节。如何充分利用数据进行预测建模就是特征工程要解决的问题! “实际上,所有机器学习算法的成功取决于如何呈现数据。” “特征工程是一个看起来不值得在任何论文或者书籍中被探讨的一个主题。但是他却对机器学习的成功与否起着至关重要的作用。机器学习算法很多都是由于建立一个学习器能够理解的工程化特征而获得成功的。”——ScottLocklin,in “Neglected machine learning ideas”
- 数据中的特征对预测的模型和获得的结果有着直接的影响。可以这样认为,特征选择和准备越好,获得的结果也就越好。这是正确的,但也存在误导。预测的结果其实取决于许多相关的属性:比如说能获得的数据、准备好的特征以及模型的选择。
————————————————————————————————————————
如图,影响房价的因素有房子的长、宽两个因素。
而房子的面积(长×宽)同样也是影响房价的重要因素之一。
因此,定义房屋面积=长×宽,将其作为一个影响房价的新因素。
这种发现新因素或组合旧有因素,以探究对因变量y有明显影响作用的特征的过程称为特征工程。
现在探究房屋面积对房价的影响。
观察散点图,能够发现,房屋面积对房价的影响并不是线性的,而是近似满足一个三次的关系。
当价格与其影响因素满足多项式关系时,对价格做回归的过程称为多项式回归。
可以调整多项式的次数,以使得多项式更加的贴合散点图。
注:如果我们采用多项式回归模型,在运行梯度下降算法前,特征缩放非常有必要。
——————————————————————————————————————