1.1 线性回归
回归分析(regression analysis)是确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。回归属于监督学习方法。
回归分析的方法有很多种,按照变量的个数,可以分为一元回归分析和多元回归分析;按照自变量和因变量之间的关系,可以分为线性回归分析和非线性回归分析。在机器学习中,回归分析经常作为一种预测模型,例如,预测分析出行日期与机票价格之间的关系,股票市场价格等。
1.1.1 一元线性回归
利用回归分析来确定多个变量的依赖关系的方程称为回归方程。如果回归方程所呈现的图形为一条直线,则称为线性回归方程。
线性回归(Linear Regression)算法的核心是线性回归方程,通过在输入数据和输出数据之间建立一种直线的相关关系,完成预测的任务。即将输入数据乘以一些常量,经过基本处理就可以得到输出数据。线性回归方程的参数可以有一个或多个,经常用于实际的预测问题,例如,预测机票价格、股票市场走势预测等,是一个广受关注的算法。
由于能够用一条直线描述数据之间的关系,因此对于新出现的数据,将输人数据乘以些常量,经过基本处理可以得到输出数据。
假设输入的数据X=(x_1,…,x_n) ,线性回归的最简单模型是输⼊变量的线性组合:
其中X表示输入数据,W是模型的参数。如果