数据挖掘函数之回归(regression)
回归是一种用来预测连续数值的数据挖掘函数。利润,销售,抵押贷款利率,房价,面积,温度,距离都可以使用这种回归函数来预测。例如,一个回归模型基于地理位置,房间数,面积大小和其他一些因素来预测房价。
一个回归任务开始于一个目标值已知的数据集。例如,一个预测房价的模型基于一段时间内很多房子的数据开发出来。除了一些简单的数值,房价可能会跟房子的年龄,面积,房间数,税,是否靠近购物中心等等一系列因素有关。因此,房子的价值成为了目标,其他的属性成为了预测因子,而且每一个房子的数据都组成了一条记录。
在模型建立的过程中,回归就为build data中的每一条记录用预测因子函数估算目标值。预测因子和目标值的关系在模型中被总结出来,然后这个模型就可以被应用到目标值不确定的各种各样的数据集上。
一个回归工程的历史数据通常分为两个数据集:一个用于创建模型,另一个用于测试模型预测值和实际值的差异。
回归模型应用于各种趋势分析,业务规划,市场营销,财务预测,生物医学等等一系列领域。
回归模型是如何工作的?
为数据挖掘开发和使用高质量的回归模型并不需要懂得回归中用到的数学知识。但是,懂一点基础概念还是有帮助的。
回归为了使归回函数最佳拟合一组观测数据去寻找一个参数的值来达到此目的。下面的公式用符号表示出了这种关系。
y = F(x,a) + e<