什么是多元线性回归方程
多元线性回归是在线性回归基础上具有两个及两个以上自变量的多元线性回归(multivariable linear regression)。如果我们预测房子价格时,则其自变量面积,厚层高度,层数等便为x1,x2,x3…等,我本次采用的数据似乎是一种生物的数据,具体出处忘了,若是原博主看见可以提醒我添加引用。
数据集的链接:https://pan.baidu.com/s/1Z_1jiGmwSumow0_PupiBXg
提取码:q2ag
前8项为自变量,最后一项为数据结果。
故结果的函数为
将x转变为
故
公式推导
已知
做过线性回归都知道,这时需要构造一个代价函数cost J
令J最小有两种方法标准方程以及梯度下降
标准方程
这个标准法我也只是了解了一下,似乎对于数据太多时存在缺陷,接下来了解一下梯度下降法
梯度下降就没那么多计算:
通过递归不断改变系数。
代码展示
%拟合率达到74%
function main()
sum = xlsread('data.xlsx');%读取数据
n = size(sum,2);
z = rand(1,n);%系数
disp(z);
sum1 = sum(1:2924,:);%训练集
sum2 = sum(2925:4177,:);%测试集
[m1,n1] = size(sum1);
x1 = sum1(:,1:n1-1);%数据
y1 = sum1(:,n);%结果
%%%%%%测试集设置
[m2,n2] = size(sum2);
x2 = sum2(:,1:n2-1);
s2= ones(m2,n2);
s2(:,2:n2) = x2;
y2 = sum2(:,n2);
error = 5;%代价初始化
error_set = 2.6;%最大误差
a = 0.2;%学习因子
j = 1;%计算符合误差内个数
k = 0;%误差内占比
while(error > error_set)
z = gradient(z,a,x1,y1);
error = cost(z,x1,y1);
end
p = s2*z';
disp(z);
disp(error);
%计算百分比
while(j < m2+1)
min_error = abs( p(j,:) - y2(j,:) );
if(min_error < 2 || min_error == 2)
k = k + 1;
end
j = j + 1;
end
k = k/1253;
disp(k);
end
%z为系数,a学习因子,x数据,y结果,采用梯度法
function sum = gradient(z,a,x,y)
[m,n] = size(x);
s= ones(m,1+n);
s(:,2:n+1) = x;
x = s;
sum = (z' -a*x'*(x*z' - y)/m)';
end
%'性别','壳体最长长度','直径','高度','全重','去壳重量','内脏重量','壳体重量','环数'
%代价函数
function cost_price = cost(z,x,y)
[m,n] = size(x);
s= ones(m,1+n);
s(:,2:n+1) = x;
x = s;
sum = x*z'-y;
sum = sum' * sum;
cost_price = sum/(2*m);
end
结果
我是通过将数据及7:3划分,采用了两种划分数据,第一种随机抽取70%数据作为训练集,再抽取30%作为测试集,
当然,这里面存在着许多测试集数据与训练集数据重合。
因此,把前70%的数据作为训练集,剩下的数据作为测试集,两者基本不存在交集。
我看到原博主为82%的,后续看看怎么能再提高一下,阈值误差设置2.6,是因为我的电脑在设置为2.5时运行时间太长(我没等它运行完毕就关了)。