机器学习笔记(二)回归
回归这个概念最早是由英国生物统计学家高尔顿和它的学生皮尔逊在研究父母亲和子女的身高遗传特性时提出的。
“子女的身高趋向于高于父母的身高的平均值,但一般不会超过父母的身高。”–《遗传的身高向平均数方向的回归》
Y=0.8567+0.516*X(单位为米)
回归如今指的用一个或多个自变量来预测因变量的数学方法,在机器学习中,回归指的是一类预测变量为连续值的有监督学习方法,在回归模型中,需要预测的变量叫做因变量,用来解释因变量变化的变量叫做自变量。
线性回归需要一个线性模型,属于监督学习,因此方法和监督学习应该是一样的,先给定一个训练集,根据这个训练集学习出一个线性函数,然后测试这个函数是否足够拟合训练集数据。
一元线性回归
一元指的是一个自变量,模型为y=wx+w在数学中这个式子称作一元线性方程,w是斜率,w是截距,而在回归中w,w称为回归系数。给定训练集D={(x,y),…,(x,y)},我们的目标是找到一条直线,使的所有样本尽可能落在它的附近,预测的值与真实值的差称为误差。
优化目标:让误差尽可能的小
求解就是对该式求导并令导数等于零,得到ww值。
多元线性回归
即多个自变量,训练集D={(x,y&#x