提到拟合,你就不能只说拟合,还要说插值。插纸与拟合一般在一些指导书上都是在一块的。但是两者还是有不同。
还是那张图,但是现在说说拟合。
插值算法中, 得到的多项式f(x)要经过所有样本点。但是如果样本点太多, 那么这个多项式次数过高, 会造成龙格现象。
尽管我们可以选择分段的方法避免这种现象, 但是更多时候我们更倾向于得到一个确定的曲线, 尽管这条曲线不能经过每一个样本点, 但只要保证误差足够小即可, 这就是拟合的思想。(拟合的结果是得到一个确定的曲线,并且曲线比较简单)
一个小例子
找到下面x和y的拟合曲线,y=f(x)
clear;clc
load data1
plot(x,y,'o')
% 给x和y轴加上标签
xlabel('x的值')
ylabel('y的值')
图画出来之后,你会发现,如果是多项式插值,样本点太多了,一旦多项式构造出来之后,龙格现象无法避免;分段插值,解析式形式会很复杂。
所以说,换一种方式。
打眼一看,这些点就像是在一条隐形的直线两边分布,我们设这条曲线是y=kx+b,两个未知量。找这两个未知量,一个宗旨,就是说,找到样本点距离直线最小的时候,k和b分别是多少。
最小二乘法的几何解释
arg,这个就是参数的英文单词的前三个字母。argmin还有后面的一大坨,这个式子表示:圆括号里面的式子最小的时候,参数k和b的值。
最小二乘法,这个二来自于第二种定义里面,圆括号里面的平方。
求解最小二乘法
理论基本讲完了,现在开始代码实操
MATLAB求解最小二乘
clear;clc
load data1
plot(x,y,'o')
% 给x和y轴加上标签
xlabel('x的值')
ylabel('y的值')
n = size(x,1);
k = (n*sum(x.*y)-sum(x)*sum(y))/(n*sum(x.*x)-sum(x)*sum(x))
b = (sum(x.*x)*sum(y)-sum(x)*sum(x.*y))/(n*sum(x.*x)-sum(x)*sum(x))
hold on % 继续在之前的图形上来画图形
grid on % 显示网格线
% % 画出y=kx+b的函数图像 plot(x,y)
% % 传统的画法:模拟生成x和y的序列,比如要画出[0,5]上的图形
xx = 2.5: 0.1 :7; % 间隔设置的越小画出来的图形越准确
yy = k * xx + b; % k和b都是已知值
plot(xx,yy,'-')
f=@(x) k*x+b;
fplot(f,[2.5,7]);
legend('样本数据','拟合函数','location','SouthEast')
求出来了
匿名函数
% 匿名函数的基本用法。
% handle = @(arglist) anonymous_function
% 其中handle为调用匿名函数时使用的名字。
% arglist为匿名函数的输入参数,可以是一个,也可以是多个,用逗号分隔。
% anonymous_function为匿名函数的表达式。
% 举个小例子
% z=@(x,y) x^2+y^2;
% z(1,2)
% % ans = 5
% fplot函数可用于画出匿名一元函数的图形。
% fplot(f,xinterval) 将匿名函数f在指定区间xinterval绘图。xinterval = [xmin xmax] 表示定义域的范围
现在,我们需要知道一个问题,拟合的准不准?误差有多少?
拟合优度
在概率论与数理统计中,该图总体平方和SST就是y序列样本方差的分值,每个样本点和序列均值的平方和。
SSE误差平方和,先求误差再求平方然后求和。
SSR回归平方和,可以被理解为,拟合平方和。每个拟合值和均值做差然后平方再求和。
这段需要动动脑子,动了之后你就会发现,妙哉~
拟合的函数越复杂,SSE越小。这样理解:如果是多项式插值来拟合,这个时候的函数是可以经过每个样本点的,此时SSE为零。但是这个时候,与我们拟合的初衷就有些不同,我们希望通过一个简单的函数来描述,来尽量靠近我的样本点,不能为了追求误差小,然后找了一个很复杂的拟合函数。
所以说,拟合完了之后,不能只看三个SS里面的一个,也不能只看R的平方,需要几个指标一块来评判拟合的函数建立的好不好