吴恩达《机器学习》线性回归模型笔记

吴恩达《机器学习》线性回归模型

  • 线性回归模型
  • 对该算法的认识
线性回归模型(Linear Regression)
  • 基本模型
      H y p o t h e s e s : y = Θ 0 + Θ 1 x \ Hypotheses: y = \Theta _{0}+\Theta _{1}x  Hypotheses:y=Θ0+Θ1x
      P a r a m e t e r s : Θ 0 , Θ 1 \ Parameters: \Theta _{0},\Theta _{1}  Parameters:Θ0,Θ1
      C o s t F u n c t i o n : J ( Θ 0 , Θ 1 ) = 1 2 m ∑ i = 0 m ( h ( x i ) − y i ) 2 \ Cost Function: J(\Theta _{0},\Theta _{1}) = \frac{1}{2m}\sum_{i=0}^{m}(h(x^{i})-y^{i})^{2}  CostFunction:J(Θ0,Θ1)=2m1i=0m(h(xi)yi)2
    Cost Minimize J —— Batch Gradient Descent
      Θ j : = Θ j − α ∂ ∂ Θ j J ( Θ 0 , Θ 1 ) \ \Theta_{j} := \Theta_{j} - \alpha \frac{\partial }{\partial \Theta_{j}} J(\Theta_0,\Theta_1)  Θj:=ΘjαΘjJ(Θ0,Θ1)
      ∂ J ∂ Θ 0 = 1 m ( h ( x i ) − y i ) \ \frac{\partial J}{\partial \Theta_0} = \frac{1}{m}(h(x^i)-y^i)  Θ0J=m1(h(xi)yi)
      ∂ J ∂ Θ 1 = 1 m ( h ( x i ) − y i ) x i \ \frac{\partial J}{\partial \Theta_1} = \frac{1}{m}(h(x^i)-y^i)x^i  Θ1J=m1(h(xi)yi)xi
  • 模型的理解
    线性回归模型其实就是一个一元一次方程,有两个参数,该算法要做的事情就是找到拟合数据集最好的参数。
    而我们采用的找参数的方法是梯度下降的方法,该方法需要我们确定一个超参数——学习速率α,α取值必须合适,太大会造成无法收敛,甚至发散;而太小导致下降速率太慢,使算法效率低下。
    通过这个方法,参数θ就会不断更新,越接近局部最优解(偏导数等于零),偏导数的值就会越小,再乘上一个常数α,经过不断迭代,最终参数θ的值不变,也就得到了线性回归的训练模型了。
    而在更新两个参数的时候,必须同步更新,不能先更新一个参数,再用更新后的第一个参数求第二个参数。
    在该模型中,代价函数为凸函数(Convex),梯度下降存在全局最优解,即唯一解。而不像其他的二元方程可能是局部最优解,在不同的起始位置,可能得到不同的局部最优解。这个在高等数学中就是求解极小值和最小值的问题吧。
对算法的思考
  • 代价函数为什么是用平方相加而不是绝对值相加?
    我们可以假设两组代价值,分别为(1,2,3)和(1,2,2),如果用绝对值相加,那么这两组数据的代价都为6;而采用平方相加,代价分别为14和9,则可以判断第二组数据的拟合更好,其次用平方相加,也解决了正负号的问题。
  • 代价函数为什么要除以2m?
    m是因为必须考虑数据的个数,10个样本和100个样本如果代价相同,他们拟合的程度是不同的。而2是为了数据处理的方便,因为求导会产生2的常数。
  • 算法最优解一定在实际预测中的效果最好吗?
    这应该是不一定的,因为机器学习的本质是通过过去产生的数据集,训练出一个模型,进而预测之后给定数据的可能结果。但世界是不断变化的,用过去的经验不一定能很好的预测未来的事情。从哲学上来说,就是要处理好运动和静止的关系吧,运动是绝对的,静止是相对的。所以一个训练模型一定有它的适用条件和使用范围。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值