拟合算法

拟合算法

与插值问题不同,在拟合问题中不需要曲线一定经过给定的点。拟合问题的目标是寻求一个函数(曲线),使得该曲线在某种准则下与所有的数据点最为接近,即曲线拟合的最好(最小化损失函数)

什么时候用插值和拟合?
当样本量少于30的时候优先选择插值算法,当样本量比较多的时候,优先考虑拟合。

1. 最小二乘法的几何解释

设这些样本点为 ( x i , y i ) , i = 1 , 2 , . . . , n (x_i,y_i),i = 1,2,...,n (xi,yi),i=1,2,...,n我们设置的拟合曲线为 y = k x + b y = kx+b y=kx+b
问题: k和b取何值时,样本点和拟合曲线最为接近

第一种定义:
y ^ i = k x i + b \hat y_i = kx_i + b y^i=kxi+b
k ^ , b ^ = arg min ⁡ k , b ( ∑ i = 1 n ∣ y i − y ^ i ∣ ) \hat k, \hat b = \argmin_{k, b}(\sum_{i=1}^n|y_i-\hat y_i|) k^,b^=k,bargmin(i=1nyiy^i)

第二种定义:
y ^ i = k x i + b \hat y_i = kx_i + b y^i=kxi+b
k ^ , b ^ = arg min ⁡ k , b ( ∑ i = 1 n ( y i − y ^ i ) 2 ) \hat k, \hat b = \argmin_{k, b}(\sum_{i=1}^n(y_i-\hat y_i)^2) k^,b^=k,bargmin(i=1n(yiy^i)2)

第一个定义具有绝对值,不容易求导,因此计算比较复杂,所以往往使用第二种定义,也就是最小二乘的思想。

2. 求解最小二乘法

设这些样本点为 ( x i , y i ) , i = 1 , 2 , . . . , n (x_i,y_i),i=1,2,...,n (xi,yi),i=1,2,...,n,设我们设置的拟合曲线为 y = k x + b y=kx+b y=kx+b令拟合值为 y ^ i = k x i + b \hat y_i = kx_i +b y^i=kxi+b
那么 k ^ , b ^ = arg min ⁡ k , b ( ∑ i = 1 n ( y i − y ^ i ) 2 ) = arg min ⁡ k , b ( ∑ i = 1 n ( y i − k x i − b ) 2 ) \hat k,\hat b=\argmin_{k,b}(\sum_{i=1}^n(y_i-\hat y_i)^2)=\argmin_{k,b}(\sum_{i=1}^n(y_i-kx_i-b)^2) k^,b^=k,bargmin(i=1n(yiy^i)2)=k,bargmin(i=1n(yikxib)2)
L = ∑ i = 1 n ( y i − k x i − b ) 2 L = \sum_{i=1}^n(y_i-kx_i-b)^2 L=i=1n(yikxib)2,现在要找 k, b 使得L最小。(L在机器学习种被称为损失函数,在统计学习种也常被称为残差平方和)
证明省略
得到:
k ^ = n ∑ i = 1 n x i y i − ∑ i = 1 n y i ∑ i = 1 n x i n ∑ i = 1 n x i 2 − ∑ i = 1 n x i ∑ i = 1 n x i \hat k=\frac{n\sum_{i=1}^nx_iy_i-\sum_{i=1}^ny_i\sum_{i=1}^nx_i}{n\sum_{i=1}^nx_i^2-\sum_{i=1}^nx_i\sum_{i=1}^nx_i} k^=ni=1nxi2i=1nxii=1nxini=1nxiyii=1nyii=1nxi

b ^ = ∑ i = 1 n x i 2 ∑ i = 1 n y i − ∑ i = 1 n x i ∑ i = 1 n x i y i n ∑ i = 1 n x i 2 − ∑ i = 1 n x i ∑ i = 1 n x i \hat b=\frac{\sum_{i=1}^nx_i^2\sum_{i=1}^ny_i-\sum_{i=1}^nx_i\sum_{i=1}^nx_iy_i}{n\sum_{i=1}^nx_i^2-\sum_{i=1}^nx_i\sum_{i=1}^nx_i} b^=ni=1nxi2i=1nxii=1nxii=1nxi2i=1nyii=1nxii=1nxiyi

clear;clc
load  data1
plot(x,y,'o')
% 给x和y轴加上标签
xlabel('x的值')
ylabel('y的值')
n = size(x,1);
k = (n*sum(x.*y)-sum(x)*sum(y))/(n*sum(x.*x)-sum(x)*sum(x))
b = (sum(x.*x)*sum(y)-sum(x)*sum(x.*y))/(n*sum(x.*x)-sum(x)*sum(x))
hold on % 继续在之前的图形上来画图形
grid on % 显示网格线

f=@(x) k*x+b;
fplot(f,[min(x)-1,max(x)+1]);
legend('样本数据','拟合函数','location','SouthEast')

3.如何评价拟合的好坏

拟合优度(可决系数) R 2 R^2 R2
总体平方和SST: S S T = ∑ i = 1 n ( y i − ∑ i = 1 n y / n ) SST=\sum_{i=1}^n(y_i-\sum_{i=1}^ny/n) SST=i=1n(yii=1ny/n)
误差平方和SSE: S S E = ∑ i = 1 n ( y i − y ^ ) 2 SSE=\sum_{i=1}^n(y_i-\hat y)^2 SSE=i=1n(yiy^)2
回归平方和SSR: S S R = ∑ i = 1 n ( y ^ i − ∑ i = 1 n y / n ) SSR=\sum_{i=1}^n(\hat y_i-\sum_{i=1}^ny/n) SSR=i=1n(y^ii=1ny/n)
可以证明: SST = SSE +SSR
拟合优度:
0 ≤ R 2 = S S R S S T = S S T − S S E S S T = 1 − S S E S S T ≤ 1 0 \leq R^2 = \frac{SSR}{SST}=\frac{SST-SSE}{SST} = 1-\frac{SSE}{SST}\leq1 0R2=SSTSSR=SSTSSTSSE=1SSTSSE1
R 2 R^2 R2越接近1,说明误差平方和越接近0,误差越小说明拟合越好。
(注意: R 2 R^2 R2只能用于拟合函数是线性函数时,拟合结果评价)
线性函数和其他函数(例如指数函数)比较拟合的好坏,直接看SSE即可

y_hat = k*x+b; % y的拟合值
SSR = sum((y_hat-mean(y)).^2)  % 回归平方和
SSE = sum((y_hat-y).^2) % 误差平方和
SST = sum((y-mean(y)).^2) % 总体平方和
SST-SSE-SSR
R_2 = SSR / SST
  • 0
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值