Day1
作业1
问题:描述你在学习、使用数学表达式时的困难, 可举例说明.
1.需要用到的符号不好找。比如 \hat,单知道长什么样子,真要用的时候只能挨着挨着查符号。
2.部分符号有多个参数(程序员的理解),比如分数:
1
2
\frac {1}{2}
21, 表达式为 \frac {1}{2},分子分母一定要使用花括号括住才行。
3.较长的表达式很难阅读。花括号在一些时候不是必须的,但可以帮助我书写和检查表达式,要合理使用。
作业2
问题1:令 A = { 3 , 5 } \mathbf{A} = \{3, 5\} A={3,5}, 写出 2 A 2^{\mathbf{A}} 2A
2 A = { ∅ , { 3 } , { 5 } , { 3 , 5 } } 2^{\mathbf A} = \{\emptyset, \{3\}, \{5\}, \{3, 5\} \} 2A={∅,{3},{5},{3,5}}
问题2:展开 2 ∅ 2^{\emptyset} 2∅
2
∅
=
{
∅
}
2^{\emptyset} = \{\emptyset\}
2∅={∅}
值得一提的是:
2
{
∅
}
=
{
∅
,
{
∅
}
}
2^{\{\emptyset\}} = \{\emptyset, \{\emptyset\}\}
2{∅}={∅,{∅}}
问题3:令 A = { 5 , 6 , 7 , 8 , 9 } \mathbf{A} = \{5, 6, 7, 8, 9\} A={5,6,7,8,9}, 写出 A \mathbf{A} A 的其它两种表示法.
A
=
{
5
,
6
,
…
,
9
}
\mathbf A = \{5, 6, \dots, 9\}
A={5,6,…,9}
A
=
[
5..9
]
\mathbf A = [5..9]
A=[5..9]
作业3
问题:自己出数据, 做一个 3 × 2 3 \times 2 3×2 与 2 × 4 2 \times 4 2×4 的矩阵乘法.
[ 0.7 0.4 0.8 0.2 0.1 0.5 ] × [ 0.5 0.7 1 0.2 0.3 0.5 0.4 0.8 ] = [ 0.47 0.69 0.86 0.46 0.46 0.66 0.88 0.32 0.20 0.32 0.30 0.42 ] \begin{bmatrix} 0.7 &0.4 \\ 0.8 &0.2 \\ 0.1 &0.5 \end{bmatrix} \times \begin{bmatrix} 0.5 &0.7 &1 &0.2 \\ 0.3 &0.5 &0.4 &0.8\\ \end{bmatrix} = \begin{bmatrix} 0.47 &0.69 &0.86 &0.46\\ 0.46 &0.66 &0.88 &0.32\\ 0.20 &0.32 &0.30 &0.42 \end{bmatrix} ⎣⎡0.70.80.10.40.20.5⎦⎤×[0.50.30.70.510.40.20.8]=⎣⎡0.470.460.200.690.660.320.860.880.300.460.320.42⎦⎤
Day2
作业4
问题1:令 A = { 1 , 2 , 5 , 8 , 9 } \mathbf{A} = \{1, 2, 5, 8, 9\} A={1,2,5,8,9}, 写出 A \mathbf{A} A 上的 “模 2 同余” 关系及相应的划分.
R
=
{
(
a
,
b
)
∈
A
×
A
∣
a
m
o
d
2
=
b
m
o
d
2
}
\mathbf{R} = \{(a, b) \in \mathbf{A} \times \mathbf{A} \vert a \mod 2 = b \mod 2\}
R={(a,b)∈A×A∣amod2=bmod2}
R
=
{
(
1
,
5
)
,
(
1
,
9
)
,
(
2
,
8
)
,
(
5
,
1
)
,
(
5
,
9
)
,
(
8
,
2
)
,
(
9
,
1
)
,
(
9
,
5
)
,
(
1
,
1
)
,
(
2
,
2
)
,
(
5
,
5
)
,
(
8
,
8
)
,
(
9
,
9
)
}
\mathbf{R} = \{(1, 5), (1, 9), (2, 8), (5, 1), (5, 9), (8, 2), (9, 1),(9, 5), (1, 1), (2, 2), (5, 5), (8, 8), (9, 9)\}
R={(1,5),(1,9),(2,8),(5,1),(5,9),(8,2),(9,1),(9,5),(1,1),(2,2),(5,5),(8,8),(9,9)}
划分:
P
=
{
{
1
,
5
,
9
}
,
{
2
,
8
}
}
\mathcal P = \{\{1, 5, 9\}, \{2, 8\}\}
P={{1,5,9},{2,8}}
问题2: A = { 1 , 2 , 5 , 8 , 9 } \mathbf{A} = \{1, 2, 5, 8, 9\} A={1,2,5,8,9}, 自己给定两个关系 R 1 \mathbf{R}_1 R1和 R 2 \mathbf{R}_2 R2,并计算 R 1 ∘ R 2 \mathbf{R}_1 \circ \mathbf{R}_2 R1∘R2, R 1 + \mathbf{R}_1^+ R1+, R 1 ∗ \mathbf{R}_1^* R1∗
关系的乘积运算:
R
2
∘
R
1
=
{
(
x
,
y
)
∣
∃
(
x
,
z
)
∈
R
1
and
(
z
,
y
)
∈
R
2
}
\mathbf{R}_2 \circ \mathbf{R}_1 = \{(x, y) \vert \exists (x, z) \in \mathbf{R}_1 \textrm{ and } (z, y) \in \mathbf{R}_2\}
R2∘R1={(x,y)∣∃(x,z)∈R1 and (z,y)∈R2}
现有
R
1
=
{
(
1
,
5
)
,
(
1
,
9
)
,
(
2
,
8
)
,
(
5
,
9
)
,
(
9
,
8
)
}
\mathbf R_1 = \{(1,5), (1,9), (2, 8), (5, 9), (9, 8)\}
R1={(1,5),(1,9),(2,8),(5,9),(9,8)}
R
2
=
{
(
9
,
5
)
,
(
8
,
1
)
,
(
2
,
1
)
}
\mathbf R_2 = \{(9, 5), (8, 1), (2, 1)\}
R2={(9,5),(8,1),(2,1)}
R 2 ∘ R 1 = { ( 1 , 5 ) , ( 2 , 1 ) , ( 5 , 5 ) , ( 9 , 1 ) } \mathbf R_2 \circ \mathbf R_1 = \{(1, 5), (2, 1), (5, 5), (9, 1)\} R2∘R1={(1,5),(2,1),(5,5),(9,1)}
R
1
2
=
{
(
1
,
9
)
,
(
1
,
8
)
,
(
5
,
8
)
}
\mathbf R_1^2 = \{(1, 9), (1, 8), (5, 8)\}
R12={(1,9),(1,8),(5,8)}
R
1
3
=
R
1
2
∘
R
1
=
{
(
1
,
8
)
}
\mathbf R_1^3 = \mathbf R_1^2 \circ {\mathbf R_1} = \{(1, 8)\}
R13=R12∘R1={(1,8)}
R
1
4
=
R
1
3
∘
R
1
=
∅
\mathbf R_1^4 = \mathbf R_1^3 \circ {\mathbf R_1} = \emptyset
R14=R13∘R1=∅
R
1
5
=
R
1
4
∘
R
1
=
∅
\mathbf R_1^5 = \mathbf R_1^4 \circ {\mathbf R_1} = \emptyset
R15=R14∘R1=∅
R
1
+
=
⋃
i
=
1
∣
A
∣
R
1
i
=
{
(
1
,
5
)
,
(
1
,
9
)
,
(
2
,
8
)
,
(
5
,
9
)
,
(
9
,
8
)
,
(
1
,
8
)
,
(
5
,
8
)
}
\mathbf R_1^+ = \bigcup_{i=1}^{|\mathbf A|}\mathbf R_1^i = \{(1,5), (1,9), (2, 8), (5, 9), (9, 8), (1, 8), (5, 8)\}
R1+=⋃i=1∣A∣R1i={(1,5),(1,9),(2,8),(5,9),(9,8),(1,8),(5,8)}
R
1
∗
=
R
1
+
∪
R
0
,
R
0
=
I
A
\mathbf R_1^* = \mathbf R_1^+ \cup \mathbf R^0, \mathbf R^0 = \mathbf I_{\mathbf A}
R1∗=R1+∪R0,R0=IA
R
1
∗
=
{
(
1
,
5
)
,
(
1
,
9
)
,
(
2
,
8
)
,
(
5
,
9
)
,
(
9
,
8
)
,
(
1
,
8
)
,
(
5
,
8
)
,
(
1
,
1
)
,
(
2
,
2
)
,
(
5
,
5
)
,
(
8
,
8
)
,
(
9
,
9
)
}
\mathbf R_1^* = \{(1,5), (1,9), (2, 8), (5, 9), (9, 8), (1, 8), (5, 8), (1, 1), (2, 2), (5, 5), (8, 8), (9, 9)\}
R1∗={(1,5),(1,9),(2,8),(5,9),(9,8),(1,8),(5,8),(1,1),(2,2),(5,5),(8,8),(9,9)}
问题3:查阅粗糙集上下近似的定义并大致描述
帮助理解
根据知识判断对象
a
a
a 是否属于集合
X
\mathbf X
X,由三种情况:
a
a
a 肯定属于集合
X
\mathbf X
X、
a
a
a 可能属于集合
X
\mathbf X
X 也可能不属于集合
X
\mathbf X
X,
a
a
a 不可能属于集合
X
\mathbf X
X。关于上下近似的具体定于如下:
设
U
\mathbf U
U 为论域(非空对象集合),
I
I
I 为
U
\mathbf U
U 中的等价关系,
X
⊂
U
\mathbf X \subset \mathbf U
X⊂U,则有:
集合 X \mathbf X X 关于关系 I I I 的下近似是根据享有的知识判断肯定属于X的对象所组成的最大集合,有时也称为 X \mathbf X X 的正区域,记为 P O S ( X ) POS(\mathbf X) POS(X): I ∗ = { x ∈ U ∣ I ( x ) ⊂ X } I_*=\{ x\in \mathbf U | I(x)\subset \mathbf X\} I∗={x∈U∣I(x)⊂X}
集合
X
\mathbf X
X 关于
I
I
I 的上近似是由所有与
X
\mathbf X
X 相交的非空等效类
I
(
x
)
I(x)
I(x)的并集,是哪些可能属于
X
\mathbf X
X 的对象的组成的最小集合:
I
∗
=
{
x
∈
U
∣
I
(
x
)
∩
X
≠
∅
}
I^*=\{ x\in \mathbf U | I(x)\cap \mathbf X\neq \emptyset\}
I∗={x∈U∣I(x)∩X=∅}
如果一个集合的上下近似相等,则该集合成为精确集合,否则称之为粗糙集
作业5
问题:举例说明你对函数的认识
在函数
y
=
2
x
y = 2x
y=2x 中,称
x
x
x 为自变量,
y
y
y 为因变量,当
x
x
x 取一个值的时候,
y
y
y 的值也确定了。
同时,函数也可以描述为集合到集合的映射,即
f
:
R
→
R
\mathcal f: R \to R
f:R→R, 函数表示为
y
=
f
(
x
)
y = \mathcal f(x)
y=f(x),对于
∈
R
\in R
∈R 的任意
y
y
y,都有唯一的
x
∈
R
x \in R
x∈R 与之对应。
作业6
自己给定一个矩阵并计算其各种范数.(书写上对于求和符号sum的上下标,文字内显示和作为重要表达式显示有所不同)
范数:
∥
X
∥
p
=
(
∑
i
,
j
∣
x
i
j
∣
p
)
1
p
\|\mathbf{X}\|_p = \left( \sum_{i, j} \vert x_{ij}\vert ^p \right)^\frac{1}{p}
∥X∥p=(i,j∑∣xij∣p)p1
有矩阵 X = [ 0 1 2 3 ] \mathbf X= \begin{bmatrix} 0 &1\\ 2 &3 \end{bmatrix} X=[0213]
l
0
\mathcal l_0
l0 范数:
∥
X
∥
0
=
∣
{
(
i
,
j
)
∣
x
i
j
≠
0
}
∣
=
3
\|\mathbf{X}\|_0 =|\{(i, j) | x_{ij} \neq 0\}| = 3
∥X∥0=∣{(i,j)∣xij=0}∣=3
l
1
\mathcal l_1
l1 范数:
∥
X
∥
1
=
∑
i
,
j
∣
x
i
j
∣
=
0
+
1
+
2
+
3
=
6
\|\mathbf{X}\|_1 =\sum_{i,j}| x_{ij}| = 0+1+2+3 = 6
∥X∥1=∑i,j∣xij∣=0+1+2+3=6
l
2
\mathcal l_2
l2 范数:
∥
X
∥
2
=
∑
i
,
j
x
i
j
2
=
0
2
+
1
2
+
2
2
+
3
2
=
14
\|\mathbf{X}\|_2 =\sqrt{\sum_{i,j} {x_{ij}}^2} = \sqrt {0^2+1^2+2^2+3^2} =\sqrt{14}
∥X∥2=∑i,jxij2=02+12+22+32=14
l
∞
\mathcal l_\infty
l∞ 范数:
∥
X
∥
∞
=
max
i
,
j
∣
x
i
j
∣
=
3
\|\mathbf{X}\|_{\infty} = \max_{i, j} \vert x_{ij} \vert = 3
∥X∥∞=maxi,j∣xij∣=3
作业7
解释推荐系统: 问题、算法与研究思路 2.1 中的优化目标
min
∑
(
i
,
j
)
∈
Ω
(
f
(
x
i
,
t
j
)
−
r
i
j
)
2
\min\sum_{(i,j) \in \Omega}(f(\mathbf x_i, \mathbf t_j) - r_{ij})^2
min(i,j)∈Ω∑(f(xi,tj)−rij)2
的各符号及含义.
数据集和函数:
用户信息表:
X
=
[
x
1
,
…
,
x
n
]
T
=
[
x
i
j
]
n
×
d
u
\mathbf X = [\mathbf x_1,\dots, \mathbf x_n]^\mathrm T = [x_{ij}]_{n \times d_u}
X=[x1,…,xn]T=[xij]n×du,每个用户具有
d
u
d_u
du 个属性。
商品信息表:
T
=
[
t
1
,
…
,
t
m
]
T
=
[
t
i
j
]
m
×
d
t
\mathbf T= [\mathbf t_1,\dots, \mathbf t_m]^\mathrm T = [t_{ij}]_{m \times d_t}
T=[t1,…,tm]T=[tij]m×dt,每个商品具有
d
t
d_t
dt 个属性。
评分函数:
f
:
R
d
u
×
R
d
t
→
R
f:R^{d_u} \times R^{d_t} \to R
f:Rdu×Rdt→R,有
d
u
d_u
du 维属性的用户与有
d
t
d_t
dt 维属性的商品的所有组合映射到评分结果
优化目标符号解释:
Ω
\Omega
Ω:用户
i
i
i 与商品
j
j
j 的组合,组合个数为
∣
Ω
∣
|\Omega|
∣Ω∣
x
i
\mathbf x_i
xi: 用户
i
i
i 的属性集合
t
j
\mathbf t_j
tj: 商品
j
j
j 的属性集合
f
f
f: 评分函数
r
i
j
r_{ij}
rij: 用户
i
i
i 对商品
j
j
j 的评分标签
优化目标解释:要使得所有训练的评分结果与评分标签的均方误差最小
Day3
作业8
问题1:将向量下标为偶数的分量
(
x
2
,
x
4
,
…
)
(x_2, x_4, …)
(x2,x4,…)累加, 写出相应表达式.
有集合
x
=
[
x
1
.
.
x
n
]
\mathbf x = [x_1..x_n]
x=[x1..xn]
向量分量累加:
∑
i
=
1
n
x
i
\sum_{i=1}^{n} x_i
∑i=1nxi
下标为偶数的分量的累加:
∑
i
m
o
d
2
=
0
x
i
\sum_{i \mod 2 = 0} x_i
∑imod2=0xi
问题2:各出一道累加、累乘、积分表达式的习题, 并给出标准答案.
1)写出1开始的 n n n 个奇数之和 的表达式
∑ i = 1 n 2 i − 1 \sum_{i=1}^n 2i - 1 ∑i=1n2i−1
2)写出 1 2 ⋅ 2 3 ⋅ 3 4 … n n + 1 \frac{1}{2} \cdot \frac{2}{3} \cdot \frac{3}{4} \dots \frac{n}{n+1} 21⋅32⋅43…n+1n 的表达式
∏ i = 1 n i i + 1 \prod_{i=1}^n \frac{i}{i + 1} ∏i=1ni+1i
3)有一圆环,内外半径分别为 r 1 , r 2 , r 1 < r 2 r_1,r_2, r_1 < r_2 r1,r2,r1<r2,写出求圆环面积的积分表达式
π ∫ r 1 r 2 r 2 d r \pi\int_{r_1}^{r_2}r^2 \mathrm dr π∫r1r2r2dr
问题3:你使用过三重累加吗? 描述一下其应用
没有。
应用:
1.三维标签求
l
1
l_1
l1 范数(错,还是二重累加)
2.求质量密度按照某分布的三维物体的质量(其实是三重定积分
但是曾今做过模板计算,用到了三维数组。
在均匀的各向异性的导热介质中求解热传导方程,用离散网格形式表示分布在三维空间并随时间变化的温度,那么
t
+
1
t + 1
t+1 时刻一个点的温度应该取决于
t
t
t 时刻该点附近若干个点的温度。如果取决于附近 7 个点的温度,则相当于求解 7 点模板计算问题。
在 7 点模板问题计算中,三维网格状态量 g 遵循迭代式:
g
x
,
y
,
z
(
t
+
1
)
=
a
z
z
z
g
x
,
y
,
z
(
t
)
+
a
n
z
z
g
x
−
1
,
y
,
z
(
t
)
+
a
p
z
z
g
x
+
1
,
y
,
z
(
t
)
+
a
z
n
z
g
x
,
y
−
1
,
z
(
t
)
+
a
z
p
z
g
x
,
y
+
1
,
z
(
t
)
+
a
z
z
n
g
x
,
y
,
z
−
1
(
t
)
+
a
z
z
p
g
x
,
y
,
z
+
1
(
t
)
\begin{aligned} g_{x,y,z}^{(t+1)} = &a_{zzz}g_{x, y, z}^{(t)} \\+ & a_{nzz}g_{x-1, y, z}^{(t)} + a_{pzz}g_{x+1, y, z}^{(t)} + a_{znz}g_{x, y-1, z}^{(t)} \\+ & a_{zpz}g_{x, y+1, z}^{(t)} + a_{zzn}g_{x, y, z-1}^{(t)} + a_{zzp}g_{x, y, z+1}^{(t)} \end{aligned}
gx,y,z(t+1)=++azzzgx,y,z(t)anzzgx−1,y,z(t)+apzzgx+1,y,z(t)+aznzgx,y−1,z(t)azpzgx,y+1,z(t)+azzngx,y,z−1(t)+azzpgx,y,z+1(t)
a
a
a 为各个方向的系数。对每个点的迭代更新用到了三重循环。
问题4:给一个常用的定积分, 将手算结果与程序结果对比.
∫
0
1
(
x
1
−
x
2
)
d
x
=
−
1
3
(
1
−
x
2
)
3
2
∣
0
1
=
1
3
\int_{0}^{1}(x \sqrt{1 - x^2}) \mathrm dx = - \frac {1}{3}(1 - x^2)^{\frac{3}{2}} \big| _0^1 = \frac{1}{3}
∫01(x1−x2)dx=−31(1−x2)23∣∣01=31
程序:
#include <iostream>
#include <cmath>
using namespace std;
int main()
{
double x = 0;
double deltax = 1e-2;
double sum = 0;
for (x = 0; x <= 1; x += deltax)
{
sum += x * sqrt(1 - x * x) * deltax;
}
cout << sum;
return 0;
}
计算结果:0.333031 :
修改
Δ
x
=
0.0001
\Delta x = 0.0001
Δx=0.0001,即变量deltax = 1e-4,可以获得更高精度的结果:
作业9
推导
矩阵求导公式
对于线性回归,有优化目标:
arg min
w
∥
X
w
−
Y
∥
2
2
\argmin_{\mathbf w} \Vert \mathbf X \mathbf w - \mathbf Y \Vert_2^2
wargmin∥Xw−Y∥22
∥
X
w
−
Y
∥
2
2
=
(
X
w
−
Y
)
T
(
X
w
−
Y
)
=
(
w
T
X
T
−
Y
T
)
(
X
w
−
Y
)
=
w
T
X
T
X
w
−
w
T
X
T
Y
−
Y
T
X
w
+
Y
T
Y
\begin{aligned} \Vert \mathbf X \mathbf w - \mathbf Y \Vert_2^2 &= (\mathbf X \mathbf w - \mathbf Y)^\mathrm T(\mathbf X \mathbf w - \mathbf Y)\\ &=(\mathbf w^\mathrm T \mathbf X^\mathrm T - \mathbf Y^\mathrm T)(\mathbf X\mathbf w - \mathbf Y)\\ &=\mathbf w^\mathrm T \mathbf X^\mathrm T\mathbf X \mathbf w - \mathbf w^\mathrm T \mathbf X^\mathrm T \mathbf Y - \mathbf Y^\mathrm T \mathbf X \mathbf w + \mathbf Y^\mathrm T \mathbf Y \end{aligned}
∥Xw−Y∥22=(Xw−Y)T(Xw−Y)=(wTXT−YT)(Xw−Y)=wTXTXw−wTXTY−YTXw+YTY
有矩阵求导公式:
d
x
T
A
x
d
x
=
(
A
+
A
T
)
x
d
x
T
A
d
x
=
A
d
A
x
d
x
=
A
T
\begin{aligned} \frac{\rm d\mathbf x^\mathrm T \mathbf A \mathbf x}{\rm d \mathbf x} &= (\mathbf A + \mathbf A^\mathrm T)\mathbf x\\ \frac{\rm d\mathbf x^\mathrm T \mathbf A}{\rm d \mathbf x} &= \mathbf A\\ \frac{\rm d\mathbf A \mathbf x}{\rm d \mathbf x} &= \mathbf A^\mathrm T \end{aligned}
dxdxTAxdxdxTAdxdAx=(A+AT)x=A=AT
对优化目标求导:
∂
(
∥
X
w
−
Y
∥
2
2
)
∂
w
=
2
X
T
X
w
−
X
T
Y
−
X
T
Y
=
2
X
T
X
w
−
2
X
T
Y
\frac{\partial (\Vert \mathbf X \mathbf w - \mathbf Y \Vert_2^2)}{\partial \mathbf w} = 2\mathbf X^\mathrm T \mathbf X\mathbf w - \mathbf X^\mathrm T \mathbf Y - \mathbf X^\mathrm T \mathbf Y\\ = 2\mathbf X^\mathrm T \mathbf X\mathbf w - 2 \mathbf X^\mathrm T \mathbf Y
∂w∂(∥Xw−Y∥22)=2XTXw−XTY−XTY=2XTXw−2XTY
为求极值,令导数等于 0,可得
w
=
(
X
T
X
)
−
1
X
T
Y
\mathbf w = (\mathbf X^\mathrm T \mathbf X)^{-1} \mathbf X^\mathrm T \mathbf Y
w=(XTX)−1XTY
问题:自己写一个小例子
(
n
=
3
,
m
=
1
)
(n = 3, m = 1)
(n=3,m=1) 来验证最小二乘法.
需要拟合的数据:
x | y |
---|---|
1 | 2 |
2 | 4 |
3 | 6 |
建立模型:
y
=
f
(
x
)
=
a
x
+
b
y = f(x) = ax+b
y=f(x)=ax+b
可修改为:
y
=
f
(
x
)
=
x
1
w
1
+
x
2
w
2
y = f(x) = x_1w_1+x_2w_2
y=f(x)=x1w1+x2w2
数据集(在常数项,
x
2
x_2
x2 直接等于1):
X
=
[
x
i
j
]
3
×
2
=
[
1
1
2
1
3
1
]
\mathbf X = [x_{ij}]_{3 \times 2} = \begin{bmatrix} 1 &1\\ 2 &1\\ 3 &1 \end{bmatrix}
X=[xij]3×2=⎣⎡123111⎦⎤
标签:
Y
=
[
2
,
4
,
6
]
T
=
[
2
4
6
]
\mathbf Y = [2, 4, 6]^{\mathrm T} = \begin{bmatrix} 2\\ 4\\ 6 \end{bmatrix}
Y=[2,4,6]T=⎣⎡246⎦⎤
系数:
w
=
[
w
1
,
w
2
]
T
\mathbf w = [w_1, w_2]^\mathrm T
w=[w1,w2]T
回归目标:
arg min
w
∣
∣
X
w
−
Y
∣
∣
2
2
\argmin_{\mathbf{w}} ||\mathbf{X} \mathbf{w} - \mathbf{Y}||_2^2
wargmin∣∣Xw−Y∣∣22
对
∣
∣
X
w
−
Y
∣
∣
2
2
||\mathbf{X} \mathbf{w} - \mathbf{Y}||_2^2
∣∣Xw−Y∣∣22 求导,且导数值为 0 时,可得最优的
w
\mathbf w
w,得到公式:
w
=
(
X
T
X
)
−
1
X
T
Y
\mathbf w = (\mathbf X^\mathrm T \mathbf X)^{-1} \mathbf X^\mathrm T \mathbf Y
w=(XTX)−1XTY
以下是计算验证部分:
X
T
X
=
[
1
2
3
1
1
1
]
×
[
1
1
2
1
3
1
]
=
[
14
6
6
3
]
\mathbf X^\mathrm T \mathbf X= \begin{bmatrix} 1 &2 &3\\ 1 &1 &1 \end{bmatrix} \times \begin{bmatrix} 1 &1\\ 2 &1\\ 3 &1 \end{bmatrix} = \begin{bmatrix} 14 &6\\ 6 &3 \end{bmatrix}
XTX=[112131]×⎣⎡123111⎦⎤=[14663]
令
X
T
X
\mathbf X^\mathrm T \mathbf X
XTX 的逆为
N
=
[
a
b
c
d
]
\mathbf N = \begin{bmatrix} a &b\\ c &d \end{bmatrix}
N=[acbd] ,那么:
[
14
6
6
3
]
×
[
a
b
c
d
]
=
[
14
a
+
6
c
14
b
+
6
d
6
a
+
3
c
6
b
+
3
d
]
=
[
1
0
0
1
]
\begin{bmatrix} 14 &6\\ 6 &3 \end{bmatrix} \times \begin{bmatrix} a &b\\ c &d \end{bmatrix} = \begin{bmatrix} {14a+6c} &{14b+6d}\\ {6a+3c} &{6b+3d} \end{bmatrix} = \begin{bmatrix} 1 &0\\ 0 &1 \end{bmatrix}
[14663]×[acbd]=[14a+6c6a+3c14b+6d6b+3d]=[1001]
联立得:
N
=
[
a
b
c
d
]
=
[
1
2
−
1
−
1
7
3
]
\mathbf N = \begin{bmatrix} a &b\\ c &d \end{bmatrix} = \begin{bmatrix} \frac{1}{2} &-1\\ -1 &\frac{7}{3} \end{bmatrix}
N=[acbd]=[21−1−137]
最后该逆矩阵乘以
X
T
Y
\mathbf X^{\mathrm T} \mathbf Y
XTY :
w
=
N
X
T
Y
=
[
1
2
−
1
−
1
7
3
]
×
[
1
2
3
1
1
1
]
×
[
2
4
6
]
=
[
2
0
]
\mathbf w = \mathbf N \mathbf X^{\mathrm T} \mathbf Y = \begin{bmatrix} \frac{1}{2} &-1\\ -1 &\frac{7}{3} \end{bmatrix} \times \begin{bmatrix} 1 &2 &3\\ 1 &1 &1 \end{bmatrix} \times \begin{bmatrix} 2\\ 4\\ 6 \end{bmatrix} = \begin{bmatrix} 2\\ 0 \end{bmatrix}
w=NXTY=[21−1−137]×[112131]×⎣⎡246⎦⎤=[20]
拟合得到函数:
y
=
f
(
x
)
=
2
x
+
0
y = f(x) = 2x + 0
y=f(x)=2x+0
作业10
问题:自己推导一遍, 并描述这个方法的特点 (不少于 5 条).
1.适用于二分类问题
2.使用sigmoid函数,将点到超平面的距离转换为概率。使得计算损失时可导。
3.优化目标表达式为一般性,直接涵盖两种分类的结果。利于建立统一的优化目标。
4.用log函数将乘积运算转为加法运算,方便了计算。
5.对所有对象进行优化。
6.采用梯度下降求参。
作业N
问题:找出论文符号系统的矛盾
整理: M M M 个特征, N N N 个对象, 每个对象有一个长度为 q q q 的二进制码,二进制码有 N N N 个
矛盾1:
有对象集合
O
=
{
o
i
}
i
=
0
N
\mathbf O = \{o_i\}_{i=0}^N
O={oi}i=0N, 与二进制矩阵
B
=
{
b
i
}
i
=
i
N
∈
{
−
1
,
1
}
q
×
N
\mathbf B = \{b_i\}_i=i^N \in \{-1, 1\}^{q \times N}
B={bi}i=iN∈{−1,1}q×N 有关。在描述对象集合
O
\mathbf O
O 时,
i
i
i 的起始值为 0 可能有问题
矛盾2:
对于二进制矩阵
B
\mathbf B
B 和 功能
φ
:
X
→
B
φ:\mathbf X \to \mathbf B
φ:X→B,个人理解为通过特征集合获取到二进制结果。表达式出现疑问:
有表达式:
B
=
{
b
i
}
i
=
i
N
∈
{
−
1
,
1
}
q
×
N
\mathbf B = \{b_i\}_i=i^N \in \{-1, 1\}^{q \times N}
B={bi}i=iN∈{−1,1}q×N,理解每个对象都有一个长度为
q
q
q 的二进制的数据。
又有表达式:
X \mathbf X X 理解为整个特征集合, 那么 m m m 的位置应该是 M M M 和 N N N 其中之一。既然特征集合 X \mathbf X X 中有 M M M 种特征,这里应该更倾向于 M M M 吧。
矛盾3:
文章并未出现对
X
n
\mathbf X_n
Xn 的解释。根据对功能
F
\mathcal F
F 的解释,参数为整个对象集合,理解为特征集合的
X
(
n
)
X^{(n)}
X(n) 便可以,但是
N
N
N 应该改为
M
M
M。