1. 将向量下标为偶数的分量 ( x 2 , x 4 , … ) (x_2, x_4, …) (x2,x4,…) 累加, 写出相应表达式.
答:表达式可以写为
∑
i
m
o
d
2
=
0
x
i
\sum_{i \mod 2=0} x_i
∑imod2=0xi,或
∑
i
=
1
⌊
n
/
2
⌋
x
2
i
\sum_{i=1}^{\lfloor n/2 \rfloor} x_{2i}
∑i=1⌊n/2⌋x2i.
2. 各出一道累加、累乘、积分表达式的习题, 并给出标准答案.
答:给定一个向量
X
=
(
x
1
,
x
2
,
…
,
x
n
)
\mathbf{X} = (x_1, x_2, \dots, x_n)
X=(x1,x2,…,xn),求下标属于3到97的分量的和与乘积。
累加:
∑
i
=
3
97
x
i
\sum_{i=3}^{97} x_i
∑i=397xi,累乘:
∏
i
=
3
97
x
i
\prod_{i=3}^{97} x_i
∏i=397xi.
给定一个函数
f
(
x
)
=
x
2
f(x) = x^2
f(x)=x2,给出其在
[
1
,
7
]
[1, 7]
[1,7] 上的积分表达式。
积分表达式:
∫
1
7
x
2
d
x
\int_1^7 x^2 \mathrm{d}x
∫17x2dx.
3. 你使用过三重累加吗? 描述一下其应用.
答:三重累加可以使用在,计算多个矩阵内部元素之和。
4. 给一个常用的定积分, 将手算结果与程序结果对比.
答:一个常用定积分,
∫
0
1
r
1
−
r
2
d
r
=
1
3
\int_0^1 r\sqrt{1-r^2} \mathrm{d}r = \frac{1}{3}
∫01r1−r2dr=31.
使用计算机计算上述定积分,代码如下,
double sum=0;
double deleta=0.01;
for(double i=0;i<1;i+=deleta)
sum+=deleta*(i*sqrt(1-i*i));
计算结果为0.33303145522214295,与实际结果很接近。
5. 自己写一个小例子来验证最小二乘法.
答:给定数据,
时间(天) | 数量(个) |
---|---|
1 | 3 |
2 | 4 |
令
X
=
[
1
1
1
2
]
\mathbf{X} = \left[\begin{matrix} 1 & 1 \\ 1 & 2 \end{matrix}\right]
X=[1112],
Y
=
[
3
,
4
]
T
\mathbf{Y} = [3, 4]^\mathrm{T}
Y=[3,4]T,
w
=
[
w
0
,
w
1
]
\mathbf{w} = [w_0,w_1]
w=[w0,w1],求
arg min
w
∣
∣
X
w
−
Y
∣
∣
2
2
\argmin_{\mathbf{w}} ||\mathbf{X} \mathbf{w} - \mathbf{Y}||_2^2
wargmin∣∣Xw−Y∣∣22。
根据
w
=
(
X
T
X
)
−
1
X
T
Y
\mathbf{w} = (\mathbf{X}^\mathrm{T}\mathbf{X})^ {−1}\mathbf{X}^\mathrm{T}\mathbf{Y}
w=(XTX)−1XTY, 可求得
x
=
[
2
,
1
]
\mathbf{x} = [2, 1]
x=[2,1],其函数为
f
(
x
)
=
x
+
2
f(x) = x + 2
f(x)=x+2,满足原数据。
6. 写出 w = ( X T X ) X T Y \mathbf{w} = (\mathbf{X}^\mathrm{T}\mathbf{X})\mathbf{X}^\mathrm{T}\mathbf{Y} w=(XTX)XTY 的推导过程.
∥
X
w
−
Y
∥
2
2
=
(
X
w
−
Y
)
T
(
X
w
−
Y
)
=
(
w
T
X
T
−
Y
T
)
(
X
w
−
Y
)
=
w
T
X
T
X
w
−
w
T
X
T
Y
−
Y
T
X
w
+
Y
T
Y
\begin{aligned} \|\mathbf{X}\mathbf{w} - \mathbf{Y}\|_2^2 & = (\mathbf{X}\mathbf{w} - \mathbf{Y})^{\mathrm{T}}(\mathbf{X}\mathbf{w} - \mathbf{Y}) \\ & = (\mathbf{w^{\mathrm{T}}}\mathbf{X}^{\mathrm{T}} - \mathbf{Y}^{\mathrm{T}})(\mathbf{Xw} - \mathbf{Y}) \\ & = \mathbf{w^{\mathrm{T}}X^{\mathrm{T}}Xw - w^{\mathrm{T}}X^{\mathrm{T}}Y - Y^{\mathrm{T}}Xw + Y^{\mathrm{T}}Y} \end{aligned}
∥Xw−Y∥22=(Xw−Y)T(Xw−Y)=(wTXT−YT)(Xw−Y)=wTXTXw−wTXTY−YTXw+YTY.
对上式进行求导,求导法则如下,
求导结果为
X
T
X
w
+
X
T
X
w
−
X
T
Y
−
X
T
Y
+
0
=
2
X
T
X
w
−
2
X
T
Y
\mathbf{X^{\mathrm{T}}Xw} + \mathbf{X^{\mathrm{T}}Xw} - \mathbf{X^{\mathrm{T}}Y} - \mathbf{X^{\mathrm{T}}Y} + 0 = 2\mathbf{X^{\mathrm{T}}Xw} - 2\mathbf{X^{\mathrm{T}}Y}
XTXw+XTXw−XTY−XTY+0=2XTXw−2XTY,令其等于
0
0
0 有
X
T
X
w
−
X
T
Y
\mathbf{X^{\mathrm{T}}Xw} - \mathbf{X^{\mathrm{T}}Y}
XTXw−XTY,转换一下为
w
=
(
X
T
X
)
X
T
Y
\mathbf{w} = (\mathbf{X}^\mathrm{T}\mathbf{X})\mathbf{X}^\mathrm{T}\mathbf{Y}
w=(XTX)XTY。
7. 自己推导一遍, 并描述这个方法的特点 (不少于 5 条).
答:特点 1)将
x
\mathbf{x}
x 做为参数放入 sigmoid 函数中,使用 sigmoid 函数将距离转成概率,
P
(
y
=
1
∣
x
;
w
)
=
1
1
+
e
−
x
w
P(y = 1 \vert \mathbf{x}; \mathbf{w}) = \frac{1}{1 + e^{-\mathbf{xw}}}
P(y=1∣x;w)=1+e−xw1.
2)使用一个式子
P
(
y
i
=
1
∣
x
i
;
w
)
=
P
(
y
i
=
1
∣
x
i
;
w
)
y
i
(
1
−
P
(
y
i
=
1
∣
x
i
;
w
)
)
1
−
y
i
P(y_i = 1 \vert \mathbf{x}_i; \mathbf{w}) = P(y_i = 1 \vert \mathbf{x}_i; \mathbf{w})^{y_i}(1 -P(y_i = 1 \vert \mathbf{x}_i; \mathbf{w}))^{1-y_i}
P(yi=1∣xi;w)=P(yi=1∣xi;w)yi(1−P(yi=1∣xi;w))1−yi 表示
0
0
0 或
1
1
1 两种情况的概率。
3)采用概率相乘的方式,对全部对象进行优化,
arg max
w
L
(
w
)
=
∏
i
=
1
n
P
(
y
i
∣
x
i
;
w
)
\argmax_\mathbf{w}L(\mathbf{w}) = \prod_{i=1}^n P(y_i \vert \mathbf{x}_i; \mathbf{w})
wargmaxL(w)=∏i=1nP(yi∣xi;w).
4)使用
log
\log
log 将相乘转化为相加问题,
log
L
(
w
)
=
∑
i
=
1
n
log
P
(
y
i
∣
x
i
;
w
)
\log L(\mathbf{w}) = \sum_{i = 1}^n \log P(y_i \vert \mathbf{x}_i; \mathbf{w})
logL(w)=∑i=1nlogP(yi∣xi;w).
5)使用梯度下降求解
w
\mathbf{w}
w,
w
t
+
1
=
w
t
−
α
∂
log
L
(
w
)
∂
w
\mathbf{w}^{t+1} = \mathbf{w}^t - \alpha\frac{\partial\log L(\mathbf{w})}{\partial\mathbf{w}}
wt+1=wt−α∂w∂logL(w).