线性回归(liner regression)
1、回归问题
回归问题和分类问题很相似,回归问题输出的是一个标量(scalar),即输出的是一个连续的值。
回归其实就是预测,根据输入(Input)得到输出(output)。关键是 如何描述输入与输出的关系,输入与输出的关系 是一种映射关系,数学里面的函数关系(functiona relationship)。怎么样找到这种二者之间的这种关系?
这里面有两种数据,一种是训练数据(train set)和测试数据(test set data);训练数据是指使用该数据来找到 输入与输出之间关系的 数据,找到function的数据集;测试数据是用来判断 训练所得到 function 的好坏。
2、一般步骤
要寻找数据和对应连续值之间的关系,实际就是要找到一个函数,能够将数据映射到连续值上。
回归问题一般通过以下三步解决:
- Model: set a model (function set)
选择一个模型。模型实际就是函数的集合,线性回归模型,就是所有线性函数组成的集合 - Goodness of function
需要有一个评判标准,能够判断函数的好坏 (评价model中的某个function 预测的值与真实值之间的偏离程度的一个 loss function) - Best function
利用上一步中评判标准,在函数集合中找到最好的函数
对于不同的模型,寻找最好的函数的方法,很有可能是不一样的。但是对于同一个问题,判断函数好坏的方法往往是相同的。