目录
一.拟合算法
拟合并不要求曲线一定经过给定的点,拟合要求目标函数,该曲线在某种准则下与所有的数据点最为接近,即曲线拟合的最好(最小化损失函数)。插值得到的拟合多项有时过于复杂,而分段很难得到综合确定的曲线,拟合优于插值,可以得到一个确定的曲线。
拟合得到的式子要足够简单。
思想:曲线与样本点足够接近。
二. 线性拟合
步骤:
(1).画散点图,确定数据适合使用线性拟合 (确定拟合曲线) .
线性拟合的拟合曲线为:
(2)利用最小二乘法(OLS),确定k,b的大小。
最小二乘的定义:
避免计算数据对拟合曲线的影响,最小二乘法得到的结果和MLE极大似
然估计一致(不用四次方或者更高次方的定义)
误差会正负相抵(不用奇次方的原因)
绝对值不易求导,极值计算困难(不用绝对值的原因)
求解:
三.评价拟合好坏
拟合优度(可决系数)
总体平方和SST:
误差平方和SSE:
回归平方和SSR:
SST=SSE+SSR
=SSR/SST,拟合优度越接近1,说明误差平方和越接近0,误差越小说明拟合
度越好。拟合优度值能用于拟合函数是线性函数时,拟合结果的好坏。
线性函数指的是线性于参数而不是线性于自变量,这个取决于SST=SSE+SSR的
证明过程。
四.拟合、回归与插值
拟合方法:要求在用函数列表表示数据关系时,误差在某种意义上最小,并不要求其完全经过数据点。是一种数据建模的方法。并不特指某一种方法,指的是对一些数据按照规律进行方程化。拟合的方法包括:回归、指数平滑、ARIMA等等。
插值方法:用一个函数一般为多项式函数,来形容数据,要求这个多项式函数经过数据点。
回归分析:更多关注“分析”,指的是确定两种或者两种以上变量间相互依赖的定量关系的一种统计分析方法。常用于预测分析。
总而言之,拟合属于更加广泛的概念,拟合包括了插值与回归。