拟合算法
与插值问题不同,在拟合问题中不需要曲线一定经过给定的点。拟合问题的目标是寻求一个函数(曲线),使得该曲线在某种准则下与所有的数据点最为接近,即曲线拟合的最好(最小化损失函数)
什么时候用插值和拟合?
当样本量少于30的时候优先选择插值算法,当样本量比较多的时候,优先考虑拟合。
1. 最小二乘法的几何解释
设这些样本点为
(
x
i
,
y
i
)
,
i
=
1
,
2
,
.
.
.
,
n
(x_i,y_i),i = 1,2,...,n
(xi,yi),i=1,2,...,n我们设置的拟合曲线为
y
=
k
x
+
b
y = kx+b
y=kx+b
问题: k和b取何值时,样本点和拟合曲线最为接近
第一种定义:
y
^
i
=
k
x
i
+
b
\hat y_i = kx_i + b
y^i=kxi+b
k
^
,
b
^
=
arg min
k
,
b
(
∑
i
=
1
n
∣
y
i
−
y
^
i
∣
)
\hat k, \hat b = \argmin_{k, b}(\sum_{i=1}^n|y_i-\hat y_i|)
k^,b^=k,bargmin(i=1∑n∣yi−y^i∣)
第二种定义:
y
^
i
=
k
x
i
+
b
\hat y_i = kx_i + b
y^i=kxi+b
k
^
,
b
^
=
arg min
k
,
b
(
∑
i
=
1
n
(
y
i
−
y
^
i
)
2
)
\hat k, \hat b = \argmin_{k, b}(\sum_{i=1}^n(y_i-\hat y_i)^2)
k^,b^=k,bargmin(i=1∑n(yi−y^i)2)
第一个定义具有绝对值,不容易求导,因此计算比较复杂,所以往往使用第二种定义,也就是最小二乘的思想。
2. 求解最小二乘法
设这些样本点为
(
x
i
,
y
i
)
,
i
=
1
,
2
,
.
.
.
,
n
(x_i,y_i),i=1,2,...,n
(xi,yi),i=1,2,...,n,设我们设置的拟合曲线为
y
=
k
x
+
b
y=kx+b
y=kx+b令拟合值为
y
^
i
=
k
x
i
+
b
\hat y_i = kx_i +b
y^i=kxi+b
那么
k
^
,
b
^
=
arg min
k
,
b
(
∑
i
=
1
n
(
y
i
−
y
^
i
)
2
)
=
arg min
k
,
b
(
∑
i
=
1
n
(
y
i
−
k
x
i
−
b
)
2
)
\hat k,\hat b=\argmin_{k,b}(\sum_{i=1}^n(y_i-\hat y_i)^2)=\argmin_{k,b}(\sum_{i=1}^n(y_i-kx_i-b)^2)
k^,b^=k,bargmin(∑i=1n(yi−y^i)2)=k,bargmin(∑i=1n(yi−kxi−b)2)
令
L
=
∑
i
=
1
n
(
y
i
−
k
x
i
−
b
)
2
L = \sum_{i=1}^n(y_i-kx_i-b)^2
L=∑i=1n(yi−kxi−b)2,现在要找 k, b 使得L最小。(L在机器学习种被称为损失函数,在统计学习种也常被称为残差平方和)
证明省略
得到:
k
^
=
n
∑
i
=
1
n
x
i
y
i
−
∑
i
=
1
n
y
i
∑
i
=
1
n
x
i
n
∑
i
=
1
n
x
i
2
−
∑
i
=
1
n
x
i
∑
i
=
1
n
x
i
\hat k=\frac{n\sum_{i=1}^nx_iy_i-\sum_{i=1}^ny_i\sum_{i=1}^nx_i}{n\sum_{i=1}^nx_i^2-\sum_{i=1}^nx_i\sum_{i=1}^nx_i}
k^=n∑i=1nxi2−∑i=1nxi∑i=1nxin∑i=1nxiyi−∑i=1nyi∑i=1nxi
b ^ = ∑ i = 1 n x i 2 ∑ i = 1 n y i − ∑ i = 1 n x i ∑ i = 1 n x i y i n ∑ i = 1 n x i 2 − ∑ i = 1 n x i ∑ i = 1 n x i \hat b=\frac{\sum_{i=1}^nx_i^2\sum_{i=1}^ny_i-\sum_{i=1}^nx_i\sum_{i=1}^nx_iy_i}{n\sum_{i=1}^nx_i^2-\sum_{i=1}^nx_i\sum_{i=1}^nx_i} b^=n∑i=1nxi2−∑i=1nxi∑i=1nxi∑i=1nxi2∑i=1nyi−∑i=1nxi∑i=1nxiyi
clear;clc
load data1
plot(x,y,'o')
% 给x和y轴加上标签
xlabel('x的值')
ylabel('y的值')
n = size(x,1);
k = (n*sum(x.*y)-sum(x)*sum(y))/(n*sum(x.*x)-sum(x)*sum(x))
b = (sum(x.*x)*sum(y)-sum(x)*sum(x.*y))/(n*sum(x.*x)-sum(x)*sum(x))
hold on % 继续在之前的图形上来画图形
grid on % 显示网格线
f=@(x) k*x+b;
fplot(f,[min(x)-1,max(x)+1]);
legend('样本数据','拟合函数','location','SouthEast')
3.如何评价拟合的好坏
拟合优度(可决系数)
R
2
R^2
R2
总体平方和SST:
S
S
T
=
∑
i
=
1
n
(
y
i
−
∑
i
=
1
n
y
/
n
)
SST=\sum_{i=1}^n(y_i-\sum_{i=1}^ny/n)
SST=∑i=1n(yi−∑i=1ny/n)
误差平方和SSE:
S
S
E
=
∑
i
=
1
n
(
y
i
−
y
^
)
2
SSE=\sum_{i=1}^n(y_i-\hat y)^2
SSE=∑i=1n(yi−y^)2
回归平方和SSR:
S
S
R
=
∑
i
=
1
n
(
y
^
i
−
∑
i
=
1
n
y
/
n
)
SSR=\sum_{i=1}^n(\hat y_i-\sum_{i=1}^ny/n)
SSR=∑i=1n(y^i−∑i=1ny/n)
可以证明: SST = SSE +SSR
拟合优度:
0
≤
R
2
=
S
S
R
S
S
T
=
S
S
T
−
S
S
E
S
S
T
=
1
−
S
S
E
S
S
T
≤
1
0 \leq R^2 = \frac{SSR}{SST}=\frac{SST-SSE}{SST} = 1-\frac{SSE}{SST}\leq1
0≤R2=SSTSSR=SSTSST−SSE=1−SSTSSE≤1
R
2
R^2
R2越接近1,说明误差平方和越接近0,误差越小说明拟合越好。
(注意:
R
2
R^2
R2只能用于拟合函数是线性函数时,拟合结果评价)
线性函数和其他函数(例如指数函数)比较拟合的好坏,直接看SSE即可
y_hat = k*x+b; % y的拟合值
SSR = sum((y_hat-mean(y)).^2) % 回归平方和
SSE = sum((y_hat-y).^2) % 误差平方和
SST = sum((y-mean(y)).^2) % 总体平方和
SST-SSE-SSR
R_2 = SSR / SST