代价函数
建立模型,一般把数据分为三个部分:训练集,验证集,测试集。
回归:预测数据为连续型数值
分类:预测数据为类别性数据,并且数据已知
聚类:预测数据为类别性数据,并且数据未知
一元线性回归
- 回归分析(regression analysis)用来建立方程模拟两个或多个变量之间如何关联
- 被预测出来的变量叫:因变量(dependent variable),输出(output)
- 被用来进行预测的叫:自变量(independent variable),输出(input)
- 一元线性回归方程包含一个自变量,一个因变量
- 两个变量的关系用一条直线模拟 如果含有两个以上的自变量,则称为多元回归分析(multiple regression)
代价函数、相关系数、决定系数
代价函数,调节θ0,θ1的值使得误差平方和最小,表示样本离这个线性方程最近。
下面是两个求最小误差平方的方式,因为两个可变参数,比较难,我们首先用斜率来计算。
斜率θ1定为1,0.5,1.5等来计算误差平方。
最后算出来的误差平方会是下面这张表的图形,其实是一个二次方程。
现在以两个参数来计算最小误差平方。颜色相同的等高线区域的h(x)的值是相等的。
圆心处是代价函数最小的地方,即是最靠近线性方程的地方。
相关系数越接近1得到的线性相关性越强,数据集越接近于拟合线性方程。
yi,y表示真实值,y尖表示预测值,同样决定系数越接近1越好。