斯坦福大学2014机器学习教程中文笔记(同样是吴恩达,推荐,有图)
- 章节2 单变量线性回归
- 章节5多变量线性回归
- 章节7 Logistic回归
逻辑回归和线性回归的不同在于假设方程的不同,逻辑回归的假设方程为
线性回归的假设方程为
第二章:单变线性回归
卖房子例子
机器学习就是要找到两个最合适的θ0和θ1使得该直线符合数据样本。
选择代价函数可以算出θ0和θ1的值(代价函数又称损失函数)一般在线性回归问题中使用的是平方差代价函数
在tensorflow代码中就是loss = tf.reduce_mean(tf.square(y_data-y))
线性回归
步骤确定假设方程,确定了假设方程也就确定了参数的个数,用梯度算法来找出最小的参数的值
下图左边为假设方程(不同θ0,θ1的值确定了不同的线性方程),右边为不同θ运算出的代价函数值,左边每一个不同的θ1都可以对应右边的一个点,然后再(梯度算法)找到最小的损失函数的值,来最好拟合假设方程
在两个参数的情况下,损失函数的图像在3D中是一个碗的形状.如果参数越多,构造出来的维度越高,构造出来的损失函数的图像越复杂.
但是通常来说选择二维等高线(高纬度的切面)来描述损失函数,在深度学习中,调整参数使用梯度算法使得迭代过程中,不断地找到最小的点.等高线的中心为最优值
第五章:多变量线性回归
梯度算法
原理:不断地求偏导,使得两个参数不断地下降,然后在再次偏导,α为我们设置的学习率,决定了梯度下降的时候,步子跨的有多大
求导完之后,得到梯度下降公式如下
在多特征的情况下,我们一般采用转化成向量矩阵的方法,也即是采用特征方程来求θ
如果遇到多个特征且特征之间的数字相差过大时,可以采用特征缩放的方法.如下图左边,如果不进行特征缩放,损失函数的图像的比例就为5:2000,这是不利于梯度下降算法的运算的.右边则是经过特征缩放的图
下图根据样本的情况,选择特定的假设方程,使得该方程的图像较接近于样本图像的分布.
正规方程(与梯度算法不同的求最小θ的方法)
把特征转化成矩阵,并且加多一个x0,初始化为1.
正规方程算法和梯度下降算法的比较
正规方程还会出现矩阵不可以逆的情况,特征>>样本的情况也不适用于正规方程.
第七章:Logistic回归
logistic函数(Sigmoid函数)会把输入的X值输出(0,1)的值,也就符合概率的分布
logistic函数原理
在logistic回归下,决策边界为假设函数和参数的属性,和训练样本无关,参数和假设函数的选择都影响着决策边界,下图的决策边界为一个圆.对于样本的分布图的不规则,可以采用高阶的假设函数去描述决策边界
logistic回归的损失函数
如果在logistic中使用线性的损失函数最终得到的图像
结果是有很多的局部最优值,原因就是logistic函数本身是非线性的,所以再使用线性的损失函数,的出来的图像是有很多局部最优解的,但是我们需要的是全局最优解.
所以我们再logistic回归中采用的损失函数是
简化之后
y=1的图像如下
y=0图像如下
当我们预测h(x)与实际值y相同时,损失值等于0
使用梯度下降算法的logistic回归
其它一下复杂的优化算法
多分类的问题可以转化为多个二分类的问题