李宏毅机器学习第一二章节
- 机器学习是什么,按照李宏毅老师的说法,机器学习(Machine Learning)其实就是让机器具备找函数(Looking for Function)的能力。举例来说,对机器说一段声音,机器就知道你说了什么会产生相应的文字;给一张图片,相应的软件能识别出图片中内容…等等这一系列都是给予机器一个输入,机器就会产生一个唯一的输出。
-
机器学习有着不同的类别,机器学习中常见的分类为监督学习、无监督学习。监督学习的定义: 根据已有的数据集,知道输入和输出结果之间的关系。根据这种已知的关系,训练得到一个最优的模型。也就是说,在监督学习中训练数据既有特征(feature)又有标签(label),通过训练,让机器可以自己找到特征和标签之间的联系,在面对只有特征没有标签的数据时,可以判断出标签。监督学习我们可以理解成我们去教电脑做事。监督学习的分类:回归、分类。回归问题是针对于连续型变量的,分类是针对离散型变量。
-
机器学习大致分为三个步骤,第一个步骤是确定Model(带有未知参数的函数),我们要先推测一下所求的数学式长什么样写出一个带有未知参数的函数,比如我们先假设y=b+wx,y是我们准备预测的结果,x是已经知道的资讯(feature),b(bias)、w(weight)是未知的参数是准备通过资料来整理出来的,label通常指的是正确的数值。第二个步骤,用训练集输入模型,评价函数的优劣通常我们使用Loss Function,找出最好的函数。L的具体计算公式如下图所示,我们可以通过计算L来预测这个函数是否是最好的选择。
从下图可以得出,左下角偏红的位置代表有较大的L表示与实际值偏差比较大,右上角附近的位置具有较小的L与实际值相差小,在等高线的中心位置大约w=1.00,b=250附近偏差最小与标签值基本符合。
第三个步骤就是最佳化的过程,找到最合适的w,b使得L最小,采用梯度下降法(Gradient Descent),假设只有一个参数w,随机选一个初始的点为w0,计算在w=w0这一点处的参数w对于L的微分是多少,如果我们求出来w0这点的微分是负的可以通过增加w的方式来减小L的值,如果我们求出来w0这点的微分是正的就可以通过减小w的方式来减小L 的值。然而,这里存在一个问题,微分为0的点可能是局部最小(对于Loss function),并不是全局最小的点。
以上是只有一个参数w求最小L的方法,我们可以用这种方法求两个参数时候的情况。随着每次迭代,L确实在变小,但是却不一定能到全局最小的点。可能卡在saddle point,亦可能卡在局部最小值。