1、拟合:只保证误差足够小,结果是得到一条确定的曲线。
2、最小二乘法
注:arg是参数,eg:
(1)第一种定义有绝对值,不容易求导,所以我们往往使用第二种定义。
(2)为什么不用三次方? 误差会正负相抵。
(3)为什么不用四次方? 避免极端数据对拟合曲线的影响。
(4)为什么要用二次方? 最小二乘法得到的结果和MLE极大似然估计一致。
3、求解最小二乘法
(L在机器学习中被称为损失函数,在回归中被称为残差平方和)
推导:
4、评价拟合的好坏:拟合优度(可决系数)
SST=SSE+SSR
越接近1,说明SSE越接近0,误差越小说明拟合越好。(误差平方和SSE易受到量纲影响)
注意:
只能用于拟合函数是线性函数时拟合结果的评价
线性函数和其他函数(eg:复杂的指数函数)比较拟合的好坏直接看SSE即可
5、实际操作中,我们可以设多个拟合函数,并求出 ,比较之下取最佳。
注意要考虑一个问题:
拟合的函数越复杂(次数越高),SSE越小,但有可能出现龙格现象,而且拟合算法希望找到一个简单的函数,因此要注意小误差和函数简单程度的取舍。
6、线性函数
(1)对变量为线性: (x为变量)
(2)对参数为线性(线性于参数):本方法中使用这个类型 eg: 是线性函数
7、部分matlab函数用法
(1)xlabel('x的值') x轴显示标签 ylabel('y的值')
(2) 匿名函数用法:handle=@(arglist) anonymous-function
arglist:参数列表,即自变量 anonymous-function:表达式
eg:z=@(x,y) x^2+y^2;
z(1,2);
ans=5
(3)fplot 可用于画出匿名一元函数的图形
fplot(f,[a,b]); [a,b] 是xinterval ,即自变量范围
(4)求均值的函数 mean()
8、代码
clear;clc
load data1
plot(x,y,'o')% 给x和y轴加上标签
xlabel('x的值')
ylabel('y的值')
n = size(x,1);
k = (n*sum(x.*y)-sum(x)*sum(y))/(n*sum(x.*x)-sum(x)*sum(x))
b = (sum(x.*x)*sum(y)-sum(x)*sum(x.*y))/(n*sum(x.*x)-sum(x)*sum(x))
hold on % 继续在之前的图形上来画图形
grid on % 显示网格线
f=@(x) k*x+b;
fplot(f,[2.5,7]);
legend('样本数据','拟合函数','location','SouthEast')
y_hat = k*x+b; % y的拟合值
SSR = sum((y_hat-mean(y)).^2) % 回归平方和
SSE = sum((y_hat-y).^2) % 误差平方和
SST = sum((y-mean(y)).^2) % 总体平方和
SST-SSE-SSR % 5.6843e-14 = 5.6843*10^-14 matlab浮点数计算的一个误差
R_2 = SSR / SST% 拟合优度
cftool曲线拟合工具箱
1、如何打开?
matlab中APP ,数字、统计和优化中的Curve Fitting Tool
2、界面
3、进入曲线拟合工具箱界面“Curve Fitting tool”
(1)点击“Data”按钮,弹出“Data”窗口;
(2)利用X data和Y data的下拉菜单读入数据x,y,可修改数据集名“Data set name”,然后点击“Create data set”按钮,退出“Data”窗口,返回工具箱界面,这时会自动画出数据集的曲线图;
(3)点击“Fitting”按钮,弹出“Fitting”窗口;
(4)点击“New fit”按钮,可修改拟合项目名称“Fit name”,通过“Data set”下拉菜单选择数据集,然后通过下拉菜单“Type of fit”选择拟合曲线的类型,工具箱提供的拟合类型有:
Custom Equations:用户自定义的函数类型
Exponential:指数逼近,有2种类型, a*exp(b*x) 、 a*exp(b*x) + c*exp(d*x)
Fourier:傅立叶逼近,有7种类型,基础型是 a0 + a1*cos(x*w) + b1*sin(x*w)
Gaussian:高斯逼近,有8种类型,基础型是 a1*exp(-((x-b1)/c1)^2)
Interpolant:插值逼近,有4种类型,linear、nearest neighbor、cubic spline、shape-preserving
Polynomial:多形式逼近,有9种类型,linear ~、quadratic ~、cubic ~、4-9th degree ~
Power:幂逼近,有2种类型,a*x^b 、a*x^b + c
Rational:有理数逼近,分子、分母共有的类型是linear ~、quadratic ~、cubic ~、4-5th degree ~;此外,分子还包括constant型
Smoothing Spline:平滑逼近(翻译的不大恰当,不好意思)
Sum of Sin Functions:正弦曲线逼近,有8种类型,基础型是 a1*sin(b1*x + c1)
Weibull:只有一种,a*b*x^(b-1)*exp(-a*x^b)
选择好所需的拟合曲线类型及其子类型,并进行相关设置:
——如果是非自定义的类型,根据实际需要点击“Fit options”按钮,设置拟合算法、修改待估计参数的上下限等参数;
——如果选Custom Equations,点击“New”按钮,弹出自定义函数等式窗口,有“Linear Equations线性等式”和“General Equations构造等式”两种标签。
在本例中选Custom Equations,点击“New”按钮,选择“General Equations”标签,输入函数类型y=a*x*x + b*x,设置参数a、b的上下限,然后点击OK。
(5)类型设置完成后,点击“Apply”按钮,就可以在Results框中得到拟合结果,如下例:
general model:
f(x) = a*x*x+b*x
Coefficients (with 95% confidence bounds):
a = 0.009194 (0.009019, 0.00937)
b = 1.78e-011 (fixed at bound)
Goodness of fit:
SSE: 6.146
R-square: 0.997
Adjusted R-square: 0.997
RMSE: 0.8263
同时,也会在工具箱窗口中显示拟合曲线。
这样,就完成一次曲线拟合啦,十分方便快捷。当然,如果你觉得拟合效果不好,还可以在“Fitting”窗口点击“New fit”按钮,按照步骤(4)~(5)进行一次新的拟合。
不过,需要注意的是,cftool 工具箱只能进行单个变量的曲线拟合,即待拟合的公式中,变量只能有一个。对于混合型的曲线,例如 y = a*x + b/x ,工具箱的拟合效果并不好。
4、Poilnomial中勾选center and scale :将数据标准化后再拟合
中心化公式: Sd是标准差
5、Custom Equation 中若自定义的拟合函数不收敛,则Fit option 修改Start Point
6、如何保存图片?
文件,Print to Figure,文件,导出设置,导出(png/jpg) (导出设置的渲染中修改分辨率可以调整图片清晰度)
7、如何调用代码?
文件,Generate Code (可放附录)
8、部分matlab函数用法
(1)randi : 产生均匀分布的随机整数(i = int)
s1 = randi(10,2,5) 一个1至10之间的随机整数矩阵,大小为2x5
s2 = randi([-5,5],1,10) 一个-5至5之间的随机整数矩阵,大小为1x10
(2) rand: 产生0至1之间均匀分布的随机数
s3 = rand(1,5) 一个0至1之间的随机矩阵,大小为1x5
s4=a + (b-a) * rand(m,n) 一个a至b之间的随机矩阵,大小为mxn
(3)normrnd:产生正态分布的随机数
s5 = normrnd(a,b,m,n) 一个均值为a,标准差(方差开根号)为b的正态分布的随机矩阵,大小为mxn
(4)roundn—任意位置四舍五入
0个位 1十位 2百位 -1小数点后一位
a = 3.1415
roundn(a,-2) % ans = 3.1400
roundn(a,2) % ans = 0
a =31415
roundn(a,2) % ans = 31400
roundn(5.5,0) %6
roundn(5.5,1) %10