进入机器学习,线性回归自然就是一道开胃菜。虽说简单,但对于入门来说还是有些难度的。代码部分见下一篇,代码对于程序员还是能能够帮助理解那些公式的。
(本文用的一些课件来自唐宇迪的机器学习,大家可以取网易云课堂看他的视频,很棒)
1.线性回归的一些要点
先说我理解的线性回归是什么意思吧,机器学习往小了说就是找规律,而线性回归就是找线性规律。举个例子, 给你一组数(x,y),(1,2) (2,4) (3, 6)小学生都能找到其中的规律就是y = 2x , 这就是线性回归的目的 一开始就假设 y = θ x,通过对数据进行分析,建模,最终得到θ = 2。
再说说几个重要名词
先定义一个前提,现在要求我们从 【身高,长相】 预测 一个人【是否有女朋友】
1.数据 , 顾名思义 就是已经有的数据 ,如【身高,长相】两个特征
2.目标 , 预测 【是否有女朋友】 (标签)
3.参数 这个就是我们要求的了,因为我们需要的是一个线性公式:
θ1身高 + θ2长相 + θ0(误差) = 是否有女朋友
其中 θ0 θ1 θ2 就是我们要求的参数
线性回归,就是在一堆数据点当中,找到一个平面能够拟合(就是包含)这些数据点
偏置项就可以理解为 误差 也就是中学函数中 y = kx + b 的那个 b
还有一个概念要知道,那就是
误差
真实值 和 预测值 之间肯定是存在差异的,这种差异是一定存在的 用ε表示
误差 ε 是[独立同分布的(https://baike.baidu.com/item/独立同分布/6715110?fr=aladdin) 并且服从 均值0 方差为 σ^2 的高斯分布(就是正态分布)
所谓 独立 就是说 ε 误差集合中的 {ε1,ε2,ε3,ε4} 相互之间不会有影响
同分布是说,他们虽然不会碰到,但是他们是在一条路上走的可以理解为平行时空,你在这,我也在这,但是我们隔了100年1个世纪。
高斯分布:{ε1,ε2,ε3,ε4} 中的值可能打可能小,但是绝大多数情况下,这个浮动不会太大,极小情况下浮动会比较大,符合正常情况
线性回归参数
最开始讲到了 θ1身高 + θ2长相 + θ