源宝导读:本文将讲解在大数据分析领域的线性回归统计计算方法,以及如何将非线性转化为线性回归的原理,同时介绍了两种的回归统计库的使用和对比,最后介绍线性回归在DMP产品的应用实践。
一、背景
回归统计,是数据分析常用的方式,可以通过对散点图的线性或非线性拟合,得到一条可以解释散点趋势的曲线函数,通过该函数可以对数据进行预测,同时可以采用相关指标刻画该函数的回归的效果,具有一定的现实指导意义。
一般的线性规划得到的是一条直线,而基本的几种非线性回归则是通过转化为线性回归的方式来进行;本篇通过讲解线性回归的计算方法以及如何将非线性转化为线性回归说明其原理,同时介绍了两种的回归统计库的使用和对比,最后通过实例演示了实现效果。本篇在 DMP 平台上实现了包含该功能的散点图组件。
二、接到需求
地点:办公室。
时间:某个清晨。
人物:某产品经理;小明,久经考验的前端攻城狮。
事件:又又接到产品提出的奇怪需求——之前搞了PS,现在 EXCEL 有的功能我们也要上,作为大数据产品,趋势线这种东西,必须有啊,移动平均除外,其他的都得搞定。
看到这个需求,小明表示,还是淡定吧…
如下图所示:
三、需求分解
图形由散点和趋势线构成,均可按照 echarts 等图形库直接绘制;
控制面板使用一般的UI 控件均可实现;
关键在于线性、指数、对数、多项式和乘幂趋势线的算法实现。
搞清楚这几种回归分析算法的原理,即搞定了这个需求。
四、线性回归
4.1、什么是回归
高中的数学课本知识告诉我们:
从一组样本数据出发