回归分析
回归等效于函数拟合,使用函数曲线使其能很好的拟合给定的离散数据(特征),如果原始数据不是离散值或者连续变量值必须想办法把他们转化为离散值(1、0变量值)或者连续变量值 。回归包括线性回归和非线性回归,非线性回归一般是和概率相关的,很复杂。线性回归并不是说因变量Y和自变量X(也可以称特征)是呈一条直线的,而时说Y可以用X的线性组合来拟合。线性回归可以分为一元线性回归和多元线性回归,
(1)一元线性回归是指自变量(输入特征)只有一维:
y
=
w
∗
x
1
+
b
y=w * x_1 + b
y=w∗x1+b
对于非线性的一维数据,用线性回归拟合结果并不好,可以采用多项式回归,手动增加特征,例如如下3种多项式拟合:
h
θ
=
θ
0
+
θ
1
∗
x
1
+
θ
2
∗
x
1
2
(
1
)
h_θ=θ_0 + θ_1 * x_1 + θ_2*x_1^2 (1)
hθ=θ0+θ1∗x1+θ2∗x12(1)
h
θ
=
θ
0
+
θ
1
∗
x
1
+
θ
2
∗
x
1
2
+
θ
3
∗
x
1
3
(
2
)
h_θ=θ_0 + θ_1 * x_1 + θ_2*x_1^2 +θ_3 * x_1^3 (2)
hθ=θ0+θ1∗x1+θ2∗x12+θ3∗x13(2)
h
θ
=
θ
0
+
θ
1
∗
x
1
+
θ
2
∗
l
o
g
(
x
1
)
(
3
)
h_θ=θ_0+θ_1 * x_1 + θ_2 * log(x_1) (3)
hθ=θ0+θ1∗x1+θ2∗log(x1)(3)
(2)多元线性回归
多元线性回归是指自变量(输入特征)大于等于2维:例如
h
θ
=
θ
0
+
θ
1
∗
x
1
+
θ
2
∗
x
2
(
4
)
h_θ=θ_0+θ_1*x_1+θ_2* x_2 (4)
hθ=θ0+θ1∗x1+θ2∗x2(4) ,也可以写成向量形式:
Y
=
W
∗
X
+
b
Y = W* X + b
Y=W∗X+b
(3) 多项式回归
其实,多项式回归和多元线性回归可以等效的,比如(1)和(4)中令
x
2
=
x
1
2
x_2 = x_1 ^2
x2=x12就可以将二者等效。所以多项式回归和多元线性回归本质上是一样的。当特征足够多甚至可以得到一个拟合的曲面。多项式回归拟合的是Y和X之间的非线性关系(这里的非线性关系指的是直线,不是直线的关系)。并不是说明这个多项式回归模型是一个非线性模型。
注:非线性回归
非线性回归是指在因变量与一系列自变量(很多特征)之间建立非线性模型。线性与非线性并不是说因变量与自变量间是直线或曲线关系,而是说因变量是否能用自变量的线性组合来表示。如果经过变量转换,两个变量可以用线性来表达去关系,那么可以用线性回归方法拟合回归方程。但经过变量变化后,两个变量关系仍然不能用线性形式来表达,则就会用到本节介绍的非线性回归分析方法。
具体参照:https://www.changchenghao.cn/n/491035.html
非线性模型可以在线性模型的基础上通过引入层级结构或者高维映射而得到。我们一般讨论的都是线性模型
注:如何判断数据(特征)是离散的和连续的?
(1)类别可数就是离散,不可数是连续。
(2)数据是否无限可分是判断连续和离散的依据,身高的数据是整数,如果提高精度可以量出小数点后面很多位,因此是连续数据。计数的、分类的、等级的数据是离散的,因为数据无法继续分割了。