回归问题/分类问题
取决于输出变量的类型
- 回归问题:连续性变量(温度、身高、气温)大多像是数值型的
- 分类问题:更多是定性结果(好/坏)
特征、标签、样本三者之间的关系
相关工作经验 岗位 城市 薪资待遇
基于这个样本集,我们可以看相关工作经验可以算是一个特征、岗位也可以作为一个特征,城市也可以作为一个特征去看,对应的呢,薪资待遇其实算是一个标签
他为什么是标签,我们去看数据特征算是一个三维的,由相关工作经验、岗位、城市构成,薪资对应其实算是要去预测的
同时,我们可以也可以看,在这里x算是一个矩阵,y算是一个向量
拟合
简单点讲起实施用一条光滑的线连接起来
某种意义上讲,拟合是需要最接近样本或者是点的那么一条线
数据集
D
=
{
(
x
1
,
y
1
)
,
(
x
2
,
y
2
)
,
(
x
3
,
y
3
)
.
.
.
.
.
.
.
.
(
x
n
,
y
n
)
}
\begin{matrix} D = \set{(x1,y1),(x2,y2),(x3,y3)........(xn,yn)} \end{matrix}
D={(x1,y1),(x2,y2),(x3,y3)........(xn,yn)}
X
i
∈
R
d
\begin{matrix} X^i \in R^d \end{matrix}
Xi∈Rd
Y
i
∈
{
0
,
1
,
2
}
\begin{matrix} Y^i \in\set {0,1,2} \end{matrix}
Yi∈{0,1,2}
x1-xn算是特征向量,y1-yn算是label,注意一下
X
i
\begin{matrix} X^i \end{matrix}
Xi的维度是d
建模基本流程:
DataSource -> 数据预处理-> 特征工程 -> 建模 -> 验证
金融风险评估
情感分析
定义误差
误差的表示方法-平方误差
l = ε 1 2 + ε 2 2 + ε 3 2 + ε 4 2 + ε 5 2 + ε 6 2 l = \varepsilon1^2 + \varepsilon2^2+\varepsilon3^2 + \varepsilon4^2 + \varepsilon5^2 + \varepsilon6^2 l=ε12+ε22+ε32+ε42+ε52+ε62
获取最小误差
我们要的结果其实就是,我们做的线性回归取得一个最小误差来帮助我们做某种意义上的决策
根据我们上回得到的,最小误差其实还是要去看我们给出的平方误差公式
l
=
ε
1
2
+
ε
2
2
+
ε
3
2
+
ε
4
2
+
ε
5
2
+
ε
6
2
l = \varepsilon_1^2 + \varepsilon_2^2+\varepsilon_3^2 + \varepsilon_4^2 + \varepsilon_5^2 + \varepsilon_6^2
l=ε12+ε22+ε32+ε42+ε52+ε62
在这里只不过是,我们拿到的
ε
1
\varepsilon1
ε1都是我们基于
y
=
k
x
+
b
y=kx+b
y=kx+b的这么一个斜率取得的结果,因为
ε
\varepsilon
ε的计算公式是
ε
=
∣
y
−
y
⋀
∣
\varepsilon=|y-y\bigwedge|
ε=∣y−y⋀∣,因为在这里直线又是由(k,b)这两个参数去做控制的,所以实际上我们需要的
y
⋀
y\bigwedge
y⋀完全是要根据斜率公式来去实现的。
固确定最小误差的公式就变成了这样
ε
2
=
(
∣
y
−
k
x
+
b
∣
)
2
\varepsilon^2=(|y-kx+b|)^2
ε2=(∣y−kx+b∣)2,另外一种呈现效果就是
∑
i
=
1
6
(
W
x
i
+
b
−
y
i
)
2
\displaystyle\sum_{i=1}^6(Wx_i+b-y_i)^2
i=1∑6(Wxi+b−yi)2 所以这个l其实也算是目标函数,
即最终公式其实是
l
(
w
,
b
)
=
∑
i
=
1
6
(
W
x
i
+
b
−
y
i
)
2
l(w,b)=\displaystyle\sum_{i=1}^6(Wx_i+b-y_i)^2
l(w,b)=i=1∑6(Wxi+b−yi)2
符号解释
∑
i
=
1
6
i
\displaystyle\sum_{i=1}^6 i
i=1∑6i这是累加符号,叫sum
∏
i
=
1
6
i
\displaystyle\prod_{i=1}^6 i
i=1∏6i这是乘法的意思,叫product
线性回归求解
x
ˉ
=
1
n
∑
i
=
1
N
X
i
\bar{x} = \frac{1}{n} \sum_{i=1}^N X_i
xˉ=n1∑i=1NXi,这个是干嘛的?,求平均值
这个公式是通过偏导的方式来获取公式当中的b参数具体值