##8月3日作业
1.写出本例中的
U
\mathbf{U}
U,
C
\mathbf{C}
C,
D
\mathbf{D}
D和
V
\mathbf{V}
V 注: 最后两个属性为决策属性
解:
U
=
{
x
1
,
x
2
,
x
3
,
x
4
,
x
5
,
x
6
,
x
7
}
\mathbf{U}=\{x_1,x_2,x_3,x_4,x_5,x_6,x_7\}
U={x1,x2,x3,x4,x5,x6,x7} is the set of instances,
C
=
{
H
e
a
d
a
c
h
e
,
T
e
m
p
r
a
t
u
r
e
,
L
y
m
p
h
o
c
y
t
e
,
L
e
u
k
o
c
y
t
e
,
E
o
s
i
n
o
p
h
i
l
}
\mathbf{C}=\{Headache,Temprature,Lymphocyte,Leukocyte,Eosinophil\}
C={Headache,Temprature,Lymphocyte,Leukocyte,Eosinophil}
D
=
{
H
e
a
r
t
b
e
a
t
,
F
l
u
}
\mathbf{D}=\{Heartbeat,Flu\}
D={Heartbeat,Flu} is the set of decisional attributes,
V
=
⋃
a
∈
C
∪
D
V
a
\mathbf{V}=\bigcup_{a \in \mathbf{C} \cup \mathbf{D}}\mathbf{V_a}
V=⋃a∈C∪DVa,
V
a
\mathbf{V_a}
Va is the domain of
a
∈
C
∪
D
a \in \mathbf{C} \cup \mathbf{D}
a∈C∪D,
V
=
{
\mathbf{V}=\{
V={Yes
,
,
,No
,
,
,High
,
,
,Normal
,
,
,Low
,
,
,Abnormal
}
\}
}
2.定义一个标签分布系统, 即各标签的值不是 0/1, 而是
[
0
,
1
]
[0, 1]
[0,1]区间的实数, 且同一对象的标签和为 1.
解答:A binary class decision system is a tuple
S
=
(
X
,
Y
)
S = (\mathbf{X}, \mathbf{Y})
S=(X,Y) where
X
=
[
x
i
j
]
n
×
m
∈
R
n
×
m
\mathbf{X} = [x_{ij}]_{n \times m} \in \mathbb{R}^{n \times m}
X=[xij]n×m∈Rn×m is the data matrix,n is the number of instances,m is the number of features.
Y
\mathbf{Y}
Y is a matrix,
[
y
i
k
]
n
×
l
[y_{ik}]_{n\times l }
[yik]n×l.l is the number of labels.
y
i
=
[
y
i
1
,
y
i
2
,
…
,
y
i
l
]
∈
[
0
,
1
]
n
\mathbf{y_i} = [y_{i1}, y_{i2}, \dots, y_{il}] \in [0, 1]^n
yi=[yi1,yi2,…,yil]∈[0,1]n is a label array,
y
i
∘
I
=
1
\mathbf{y_i}\circ \mathbf{I}=1
yi∘I=1,
I
\mathbf{I}
I is the identity matrix of
y
T
\mathbf{y}^\mathrm{T}
yT.
-
y
i
=
[
y
i
1
,
y
i
2
,
…
,
y
i
l
]
.
\mathbf{y_i} = [y_{i1}, y_{i_2}, \dots, y_{il}].
yi=[yi1,yi2,…,yil].
3.找一篇你们小组的论文来详细分析数学表达式, 包括其涵义, 规范, 优点和缺点.
解答:https://kns.cnki.net/KXReader/Detail?TIMESTAMP=637639461182366641&DBCODE=CJFD&TABLEName=CJFDLAST2021&FileName=NJQX202101003&RESULT=1&SIGN=nyMGgJjI82brwEJWNeZjXkDSKK0%3d#
(1). ∑ i = 1 m ( y ^ − y i ) 2 \sum_{i=1}^{m} \left ( \hat{y} - y_{i}\right )^2 ∑i=1m(y^−yi)2
其中, y ^ \hat{y} y^表示 x x x通过含 θ 1 ∘ \theta_{1}^{\circ} θ1∘和 θ 2 ∘ \theta_{2}^{\circ} θ2∘这两个参数的式子求得, y i y_{i} yi表示实际的 x x x对应的值, ( y ^ − y i ) 2 \left(\hat{y} - y_{i}\right )^2 (y^−yi)2是求对应同一个x,预测值和实际值的差距,即误差,该值越大,说明误差越大,前面的 ∑ i = 1 m \sum_{i=1}^{m} ∑i=1m求和符号表示,每一个例子的误差之和。整个式子就是求预测值和实际值的误差和,针对所有的例子。
(2). Θ 1 = Θ 0 − α × ∇ f ( Θ ) ∣ Θ 0 \Theta^1=\Theta^0-\alpha \times \nabla f\left ( \Theta \right )|\Theta ^0 Θ1=Θ0−α×∇f(Θ)∣Θ0
(3). Θ 2 = Θ 1 − α × ∇ f ( Θ ) ∣ Θ 1 \Theta^2=\Theta^1-\alpha \times \nabla f\left ( \Theta \right )|\Theta ^1 Θ2=Θ1−α×∇f(Θ)∣Θ1
其中(2),(3)都是相同的意思,都是为了找最小的 Θ ( θ 1 , θ 2 ) \Theta(\theta_{1},\theta_{2}) Θ(θ1,θ2).
对于(2), Θ 0 \Theta_{0} Θ0表示储存一组参数 ( θ 1 0 , θ 2 0 ) (\theta_{1}^{0},\theta_{2}^{0}) (θ10,θ20), α \alpha α是一个常数, α \alpha α很小,主要是记录步长, ∇ f ( Θ ) ∣ Θ 0 \nabla f\left ( \Theta \right )|\Theta ^0 ∇f(Θ)∣Θ0是在 Θ 0 \Theta_{0} Θ0这点的导函数所对应的值,它决定方向,它向着梯度上升最快的方向进行,式子里面的减号( − - −)是为了找梯度上升最快的方向的反方向,意思解释为了找梯度下降的方向,跟着函数的梯度下降,就能找到最小的 Θ \Theta Θ。式子(2)最终的目的就是求最小的 Θ 1 \Theta_{1} Θ1,根据这个式子迭代,就可以一点一点逼近最小的 Θ ( θ 1 , θ 2 ) \Theta(\theta_{1},\theta_{2}) Θ(θ1,θ2)。
(4). f ( Θ ) = 1 2 m ( X ⋅ Θ − Y ) T ( X ⋅ Θ − Y ) f(\Theta)=\frac{1}{2m}\left ( \mathbf{X}\cdot\Theta-\mathbf{Y} \right )^\mathrm{T}\left ( \mathbf{X}\cdot\Theta-\mathbf{Y} \right ) f(Θ)=2m1(X⋅Θ−Y)T(X⋅Θ−Y)
由文章上文知道: X = [ x 1 1 x 2 1 ⋮ ⋮ x 20 1 ] \mathbf{X}=\begin{bmatrix} x_1& 1\\ x_2& 1\\ \vdots&\vdots\\ x_{20}& 1 \end{bmatrix} X=⎣⎢⎢⎢⎡x1x2⋮x2011⋮1⎦⎥⎥⎥⎤, Θ = [ θ 1 θ 2 ] \mathbf{\Theta }=\begin{bmatrix} \theta_1\\ \theta_2 \end{bmatrix} Θ=[θ1θ2], Y = [ y 1 y 2 ⋮ y 20 ] \mathbf{Y}=\begin{bmatrix} y_1\\ y_2\\ \vdots\\ y_{20} \end{bmatrix} Y=⎣⎢⎢⎢⎡y1y2⋮y20⎦⎥⎥⎥⎤,
其中, X ⋅ Θ − Y \mathbf{X}\cdot\Theta-\mathbf{Y} X⋅Θ−Y的结果是一个 20 × 1 20\times1 20×1的矩阵(该文章上有20个例子),每一项表示对应的 x x x的 y ^ − y \hat{y}-y y^−y, ( X ⋅ Θ − Y ) T ( X ⋅ Θ − Y ) \left ( \mathbf{X}\cdot\Theta-\mathbf{Y} \right )^\mathrm{T}\left ( \mathbf{X}\cdot\Theta-\mathbf{Y} \right ) (X⋅Θ−Y)T(X⋅Θ−Y)的结果是一个数,这个数是 ∑ i = 1 m ( y ^ − y i ) 2 \sum_{i=1}^{m} \left ( \hat{y} - y_{i}\right )^2 ∑i=1m(y^−yi)2, 1 m \frac{1}{m} m1是表示平均到每一份上, 1 2 \frac{1}{2} 21是为了后续求导时不再有多余的常量(根据文章里说的)。
(4)式表示损失函数。
(5). ∇ f ( Θ ) = 1 m X T ( X ⋅ Θ − Y ) \nabla{f}(\Theta)=\frac{1}{m} \mathbf{X}^{\mathrm{T}}\left ( \mathbf{X}\cdot \Theta -\mathbf{Y} \right ) ∇f(Θ)=m1XT(X⋅Θ−Y)是(4式的导函数,当导函数在某处可导且为0时,该点的 Θ \Theta Θ值就是最小的值。
8月2日作业
1.写出无向图的邻接矩阵。
解:
A
=
[
0
1
1
1
1
0
1
0
1
1
0
1
1
0
1
0
]
\mathbf{A}= \begin{bmatrix} 0 & 1 & 1 &1 \\ 1 & 0 &1 &0 \\ 1 & 1& 0 &1 \\ 1 & 0 & 1 &0 \end{bmatrix}
A=⎣⎢⎢⎡0111101011011010⎦⎥⎥⎤
2.定义无向网络
解:
An undirected net is a tuple G={
V
,
w
\mathbf{V},w
V,w},where
V
\mathbf{V}
V is the set of nodes,and w:
V
×
V
→
R
\mathbf{V} \times \mathbf{V} \to \mathbb{R}
V×V→Rwhere
w
(
v
i
,
v
j
)
w(v_i,v_j)
w(vi,vj) is the weight of arc
⟨
v
i
,
v
j
⟩
\left \langle v_i,v_j\right \rangle
⟨vi,vj⟩ and the weight of arc
⟨
v
j
,
v
i
⟩
\left \langle v_j,v_i\right \rangle
⟨vj,vi⟩ .
3.自己画一棵树,将其元组各部分写出来(特别是函数p)。
解:
triple
T
=
(
V
,
r
,
p
)
\mathbf{T}=(\mathbf{V},r,p)
T=(V,r,p):
V
\mathbf{V}
V is a set,
{
v
0
,
v
1
,
v
2
,
v
3
,
v
4
,
v
5
,
v
6
}
\{v0,v1,v2,v3,v4,v5,v6\}
{v0,v1,v2,v3,v4,v5,v6}.
r
r
r is a root.r is
v
0
v0
v0.
p
p
p is a map means a child map to its parent,descripted as
V
→
V
∪
{
ϕ
}
\mathbf{V} \to \mathbf{V} \cup\{\phi\}
V→V∪{ϕ},satistying:
- p ( r ) = ϕ p(r)=\phi p(r)=ϕ
-
∀
v
∈
V
,
∃
1
\forall v \in \mathbf{V},\exist1
∀v∈V,∃1
n
≥
0
,
n \ge0,
n≥0,st.
p
(
n
)
(
v
)
=
r
p^{(n)}(v)=r
p(n)(v)=r
例如: p ( v 5 ) = v 3 , p ( v 4 ) = v 3 , p ( v 3 ) = v 2 , p ( v 2 ) = v 0 , p ( v 1 ) = v 0 , p ( v 6 ) = v 0 , p ( v 0 ) = ϕ p(v5)=v3,p(v4)=v3,p(v3)=v2,p(v2)=v0,p(v1)=v0,p(v6)=v0,p(v0)=\phi p(v5)=v3,p(v4)=v3,p(v3)=v2,p(v2)=v0,p(v1)=v0,p(v6)=v0,p(v0)=ϕ
4.针对该树,将代码中的变量值写出来(特别是parent数组)
解:代码:
public class Tree {
/**
* 节点数. 表示节点 v_0 至 v_{n-1}.
*/
int n;
/**
* 根节点. 0 至 n-1.
*/
int root;
/**
* 父节点.
*/
int[] parent;
/**
* 构造一棵树, 第一个节点为根节点, 其余节点均为其直接子节点, 也均为叶节点.
*/
public Tree(int paraN) {
n = paraN;
parent = new int[n];
parent[0] = -1; // -1 即 \phi
}// Of the constructor
}//Of class Tree
这里的:
- n=7
- root=0
- parent[7]=[-1,0,0,2,3,3,0],parent[0]表示v0的双亲节点,它为 ϕ \phi ϕ,对应的parent[0]=-1;parent[1]表示v1的双亲节点,v1的双亲节点为v0,对应的parent[1]=0.
4.画一棵三叉树, 并写出它的 child 数组.
解:
它的child数组为:
[
1
2
3
−
1
−
1
−
1
4
5
−
1
−
1
−
1
−
1
−
1
−
1
−
1
−
1
−
1
−
1
]
\begin{bmatrix} 1 &2 &3 \\ -1 & -1 &-1 \\ 4 & 5 &-1 \\ -1 & -1 &-1 \\ -1 & -1 &-1 \\ -1 & -1 &-1 \end{bmatrix}
⎣⎢⎢⎢⎢⎢⎢⎡1−14−1−1−12−15−1−1−13−1−1−1−1−1⎦⎥⎥⎥⎥⎥⎥⎤
5.按照本贴风格, 重新定义树. 提示: 还是应该定义 parent 函数, 字母表里面只有一个元素.
解:Let
ϕ
\phi
ϕ be the empty node, a tree is a triple
T
=
(
V
,
r
,
p
,
Σ
)
\mathbf{T} = ( \mathbf{V} , r ,p,\Sigma )
T=(V,r,p,Σ)
- V \mathbf{V} V is the set of nodes;
- r ∈ V r \in \mathbf{V} r∈V,r is the root node;
-
V
→
V
∪
{
ϕ
}
\mathbf{V} \to \mathbf{V} \cup \{\phi\}
V→V∪{ϕ} is the parent mapping satisfying
- p ( r ) = ϕ p(r)=\phi p(r)=ϕ;
- ∀ v ∈ V , ∃ 1 n ≥ 0 , s t . p ( n ) ( v ) = r \forall v \in \mathbf{V}, \exist 1 n \ge 0, st. p^{(n)}(v) = r ∀v∈V,∃1n≥0,st.p(n)(v)=r
- Σ \Sigma Σ is the alphabet,is an element;
6.根据图、树、
m
−
m-
m−叉树的学习, 谈谈你对元组的理解.
解答:元组可以表示不同数据类型的数据组成的一组值,元组中的数据可以有一定的关系,一个元组可以表示一个对象。
7月28日作业
- 将向量下标为偶数的分量 (x2, x4, …) 累加, 写出相应表达式.
解: ∑ i m o d 2 = 0 , i > 0 , i ∈ N n x i \sum_{i \mod 2=0,i>0,i\in \mathbb{N}}^{n}x_i imod2=0,i>0,i∈N∑nxi - 各出一道累加、累乘、积分表达式的习题, 并给出标准答案.
解:
累加: ∑ i = 0 10 i = ( 0 + 1 + ⋯ + 9 + 10 ) = ( 0 + 10 ) × 11 2 \sum_{i =0}^{10} i=(0+1+\dots+9+10)=\frac{(0+10)\times11}{2} i=0∑10i=(0+1+⋯+9+10)=2(0+10)×11
∑ i = 0 10 i = 55 \sum_{i=0}^{10} i=55 i=0∑10i=55
累乘:
∏ i = 1 4 i = 1 × 2 × 3 × 4 = 24 \prod_{i = 1}^{4} i =1 \times2 \times 3 \times 4 =24 i=1∏4i=1×2×3×4=24
积分表达式:
∫ 0 10 x 2 + x + 1 d x = 1 0 3 3 + 1 0 2 2 + 10 − ( 0 ) \int_{0}^{10} x^2 + x + 1 \mathrm{d}x =\frac{10^3}{3}+\frac{10^2}{2}+10-(0) ∫010x2+x+1dx=3103+2102+10−(0)
∫ 0 10 x 2 + x + 1 d x = 393.333 \int_{0}^{10} x^2 + x + 1 \mathrm{d}x =393.333 ∫010x2+x+1dx=393.333 - 你使用过三重累加吗? 描述一下其应用.
三重累加可以应用在可以应用在三重积分中,例如,一重积分 ∫ x 1 x 2 x d x \int_{x_1}^{x_2} x \mathrm{d}x ∫x1x2xdx是 ∑ x = x 1 x 2 x ⋅ d x \sum_{x=x_1}^{x_2} x \cdot \mathrm{d}x ∑x=x1x2x⋅dx,三重积分 ∫ x 1 x 2 ∫ y 1 y 2 ∫ z 1 z 2 x y x d x d y d z \int_{x_1}^{x_2} \int_{y_1}^{y_2} \int_{z_1}^{z_2} xyx\mathrm{d}x \mathrm{d}y \mathrm{d}z ∫x1x2∫y1y2∫z1z2xyxdxdydz为 ∑ z = z 1 z 2 ∑ y = y 1 y 2 ∑ x = x 1 x 2 x ⋅ y ⋅ z ⋅ d x ⋅ d y ⋅ d z \sum_{z=z_1}^{z_2} \sum_{y=y_1}^{y_2} \sum_{x=x_1}^{x_2} x \cdot y \cdot z \cdot \mathrm{d}x\cdot \mathrm{d}y\cdot \mathrm{d}z ∑z=z1z2∑y=y1y2∑x=x1x2x⋅y⋅z⋅dx⋅dy⋅dz - 给一个常用的定积分, 将手算结果与程序结果对比.
∫ 0 10 x 2 + x + 1 d x = 393.333 \int_{0}^{10} x^2 + x + 1 \mathrm{d}x =393.333 ∫010x2+x+1dx=393.333
package integral;
public class integral1 {
public static void main(String[] args) {
// TODO 自动生成的方法存根
double ret=0;
double steps=0.00001;
for(double x=0;x<10;x=x+steps) {
ret+=(x*x+x+1)*steps;
}
System.out.println("ret="+ret);
}
}
-
线性回归:
给定数据集 X = [ x i j ] n × ( m + 1 ) \mathbf{X}=[x_{ij}]_{n \times(m+1)} X=[xij]n×(m+1),它对应的输出标签是 Y = [ y 1 , … , y n ] T \mathbf{Y}=[y_1,\dots,y_n]^\mathrm{T} Y=[y1,…,yn]T,用最小二乘法得到表示数据集经过计算与标签值的差距(离散程度),离散程度越小说明 X \mathbf{X} X经过运算输出的值越贴合标签值,线性回归的目的就是找到 w \mathbf{w} w,它是(m+1)×1 列向量,使的 X w \mathbf{X} \mathbf{w} Xw算出的值于 Y \mathbf{Y} Y贴合。
arg min w ∣ ∣ X w − Y ∣ ∣ 2 2 \argmin_\mathbf{w} ||\mathbf{X}\mathbf{w}-\mathbf{Y}||_2^2 wargmin∣∣Xw−Y∣∣22
其中:
∣ ∣ X w − Y ∣ ∣ 2 2 = ∑ i = 1 ( ∑ j = 1 x i j w j 1 ) − y i ) 2 = ( X w − Y ) T ( X w − Y ) = ( w T X T − Y T ) ( X w − Y ) = w T X T X w − w T X T Y − Y T X w + Y T Y \begin{aligned} ||\mathbf{X}\mathbf{w}-\mathbf{Y}||_2^2&=\sum_{i=1}(\sum_{j=1}x_{ij}w_{j1})-y_i)^2 \\ & =(\mathbf{X}\mathbf{w}-\mathbf{Y})^\mathrm{T}(\mathbf{X}\mathbf{w}-\mathbf{Y})\\ & =(\mathbf{w}^\mathrm{T}\mathbf{X}^\mathrm{T}-\mathbf{Y}^\mathrm{T})(\mathbf{X}\mathbf{w}-\mathbf{Y})\\ &=\mathbf{w}^\mathrm{T}\mathbf{X}^\mathrm{T}\mathbf{X}\mathbf{w}-\mathbf{w}^\mathrm{T}\mathbf{X}^\mathrm{T}\mathbf{Y}-\mathbf{Y}^\mathrm{T}\mathbf{X}\mathbf{w}+\mathbf{Y}^\mathrm{T}\mathbf{Y} \end{aligned} ∣∣Xw−Y∣∣22=i=1∑(j=1∑xijwj1)−yi)2=(Xw−Y)T(Xw−Y)=(wTXT−YT)(Xw−Y)=wTXTXw−wTXTY−YTXw+YTY
将上式子进行 w \mathbf{w} w求导:
X T X w − X T Y = 0 \mathbf{X}^{\mathrm{T}}\mathbf{X}\mathbf{w}-\mathbf{X}^{\mathrm{T}}\mathbf{Y}=0 XTXw−XTY=0
移项后:
w = ( X T X ) − 1 X T Y \mathbf{w}=(\mathbf{X}^\mathrm{T}\mathbf{X})^{-1}\mathbf{X}^\mathrm{T}\mathbf{Y} w=(XTX)−1XTY
岭回归:
优化目标为:
arg min w ∣ ∣ x w − Y ∣ ∣ 2 2 + λ ∣ ∣ w ∣ ∣ 2 2 = w T X T X w − w T X T Y − Y T X w + Y T Y + λ w T w \begin{aligned} \argmin_w||\mathbf{x}\mathbf{w}-\mathbf{Y}||_2^2+\lambda||\mathbf{w}||_2^2=\mathbf{w}^\mathrm{T}\mathbf{X}^\mathrm{T}\mathbf{X}\mathbf{w}-\mathbf{w}^\mathrm{T}\mathbf{X}^\mathrm{T}\mathbf{Y}-\mathbf{Y}^\mathrm{T}\mathbf{X}\mathbf{w}+\mathbf{Y}^\mathrm{T}\mathbf{Y}+\lambda\mathbf{w}^\mathrm{T}\mathbf{w}\\ \end{aligned} wargmin∣∣xw−Y∣∣22+λ∣∣w∣∣22=wTXTXw−wTXTY−YTXw+YTY+λwTw
由上式求导逼近0:
X T X w − X T Y + λ w = 0 w ( X T X + λ I ) = X T Y w = ( X T X + λ I ) X T Y \begin{aligned} \mathbf{X}^\mathrm{T}\mathbf{X}\mathbf{w}-\mathbf{X}^\mathrm{T}\mathbf{Y}+\lambda\mathbf{w}=0\\ \mathbf{w}(\mathbf{X}^\mathrm{T}\mathbf{X}+\lambda\mathbf{I})= \mathbf{X}^\mathrm{T}\mathbf{Y}\\ \mathbf{w}=(\mathbf{X}^\mathrm{T}\mathbf{X}+\lambda\mathbf{I})\mathbf{X}^\mathrm{T}\mathbf{Y} \end{aligned} XTXw−XTY+λw=0w(XTX+λI)=XTYw=(XTX+λI)XTY -
作业:
设 X = [ x i j ] 3 × ( 1 + 1 ) = [ 1 1 2 1 3 1 ] \mathbf{X}=[x_{ij}]_{3\times(1+1)}=\begin{bmatrix} 1& 1\\ 2&1 \\ 3&1 \end{bmatrix} X=[xij]3×(1+1)=⎣⎡123111⎦⎤,
Y = [ y i j ] 3 × 1 = [ 3 5 7 ] \mathbf{Y}=[y_{ij}]_{3\times1}=\begin{bmatrix} 3\\ 5 \\ 7 \end{bmatrix} Y=[yij]3×1=⎣⎡357⎦⎤
设置 w = [ w i j ] ( 1 + 1 ) × 1 [ w 1 b ] \mathbf{w}=[w_{ij}]_{(1+1)\times 1}\begin{bmatrix} w_1\\ b \end{bmatrix} w=[wij](1+1)×1[w1b]
由 w = ( X T X ) − 1 X T Y \mathbf{w}=(\mathbf{X}^\mathrm{T}\mathbf{X})^{-1}\mathbf{X}^\mathrm{T}\mathbf{Y} w=(XTX)−1XTY公式知道, w = [ 27 17 40 17 ] \mathbf{w}=\begin{bmatrix} \frac{27}{17}\\ \frac{40}{17} \end{bmatrix} w=[17271740]
得到 w 1 = 27 17 w_1=\frac{27}{17} w1=1727, b = 40 17 b=\frac{40}{17} b=1740 -
Logistic 回归
Logistic 回归用于分类。
在m维空间上, m维向量 w \mathbf{w} w确定了一条直线,令 w \mathbf{w} w为列向量,点 x \mathbf{x} x与 w \mathbf{w} w的距离为 x \mathbf{x} x w \mathbf{w} w。
线性分类模型的目标, 是找到一个超平面, 把正例、负例分割
已知sigmoid 函数为:
sigmoid 函数将距离转成 (我们以为的) 概率:
p ( y = 1 ∣ x ; w ) = 1 1 + e − x w p(y = 1 \vert \mathbf{x}; \mathbf{w}) = \frac{1}{1 + e^{-\mathbf{xw}}} p(y=1∣x;w)=1+e−xw1
统一 y i y_i yi不同取值(要么0要么1,分类问题):
P ( y i ∣ x i ; w ) = P ( y i = 1 ∣ x i ; w ) y i ( 1 − P ( y i = 1 ∣ x i ; w ) ) 1 − y i \mathbf{P}(y_i|x_i;\mathbf{w})=\mathbf{P}(y_i=1|x_i;\mathbf{w})^{y_i}(1-\mathbf{P}(y_i=1|x_i;\mathbf{w}))^{1-y_i} P(yi∣xi;w)=P(yi=1∣xi;w)yi(1−P(yi=1∣xi;w))1−yi
这个表示 y i = 1 y_i=1 yi=1的概率越大越好
所以优化目标是:
arg max w L ( w ) = ∏ i = 1 n P ( y i ∣ x i ; w ) \argmax_w L(\mathbf{w})=\prod_{i=1}^n \mathbf{P}(y_i|\mathbf{x}_i;\mathbf{w}) wargmaxL(w)=i=1∏nP(yi∣xi;w)
进而在整体优化目标前加一个 l o g log log单调性不变而得到新的优化目标是:
log L ( w ) = ∑ i = 1 n log P ( y i ∣ x i ; w ) = ∑ i = 1 n y i log P ( y i = 1 ∣ x i ; w ) + ( 1 − y i ) log ( 1 − P ( y i = 1 ∣ x i ; w ) ) = ∑ i = 1 n y i log P ( y i = 1 ∣ x i ; w ) 1 − P ( y i = 1 ∣ x i ; w ) + log ( 1 − P ( y i = 1 ∣ x i ; w ) ) = ∑ i = 1 n y i x i w − log ( 1 + e x i w ) \begin{aligned}\log L(\mathbf{w}) & = \sum_{i = 1}^n \log P(y_i \vert \mathbf{x}i; \mathbf{w}) \\ & = \sum{i = 1}^n y_i \log P(y_i = 1 \vert \mathbf{x}_i; \mathbf{w}) + (1 - y_i) \log(1 - P(y_i = 1 \vert \mathbf{x}i; \mathbf{w})) \\ & = \sum{i = 1}^n y_i \log \frac{P(y_i = 1 \vert \mathbf{x}_i; \mathbf{w})}{1 - P(y_i = 1 \vert \mathbf{x}_i; \mathbf{w})} + \log (1 - P(y_i = 1 \vert \mathbf{x}i; \mathbf{w}))\\ & = \sum{i = 1}^n y_i \mathbf{x}_i \mathbf{w} - \log (1 + e^{\mathbf{x}_i \mathbf{w}}) \end{aligned} logL(w)=i=1∑nlogP(yi∣xi;w)=∑i=1nyilogP(yi=1∣xi;w)+(1−yi)log(1−P(yi=1∣xi;w))=∑i=1nyilog1−P(yi=1∣xi;w)P(yi=1∣xi;w)+log(1−P(yi=1∣xi;w))=∑i=1nyixiw−log(1+exiw)
对 w \mathbf{w} w求导:
∂ log L ( w ) ∂ w = ∑ i = 1 n y i x i − e x i w 1 + e x i w x i = ∑ i = 1 n ( y i − e x i w 1 + e x i w ) x i \begin{aligned} \frac{\partial \log L(\mathbf{w})}{\partial \mathbf{w}} & = \sum_{i = 1}^n y_i \mathbf{x}_i - \frac{e^{\mathbf{x}_i \mathbf{w}}}{1 + e^{\mathbf{x}_i \mathbf{w}}} \mathbf{x}i\\ & = \sum{i = 1}^n \left(y_i - \frac{e^{\mathbf{x}_i \mathbf{w}}}{1 + e^{\mathbf{x}_i \mathbf{w}}}\right) \mathbf{x}_i\end{aligned} ∂w∂logL(w)=i=1∑nyixi−1+exiwexiwxi=∑i=1n(yi−1+exiwexiw)xi
令该偏导为 0, 无法获得解析式, 因此用梯度下降.
w t + 1 = w t − α ∂ l o g L ( w ) ∂ w \mathbf{w}^{t+1}=\mathbf{w}^t-\alpha\frac{\partial log L(\mathbf{w})}{\partial \mathbf{w}} wt+1=wt−α∂w∂logL(w)
-作业:这个方法的特点在于:
(1)用于分类,特别是二分类
(2)优化目标利用概率最大来估计分类结果
(3)适用于m维空间的分类, m ∈ N m \in \mathbb{N} m∈N
(4)获取局部最优解
(5)每个对象到超平面的距离, 来计算其损失. 如果正确分类, 则离超平面越远越好; 如果错误分类, 则离超平面越近越好
7月26日作业
- 描述你在学习、使用数学表达式时的困难, 可举例说明.
解答:
(1)在用latex使用表达式的过程中,会因为不熟悉表达式中的使用东西而使用长得相近的符号,例如\phi和\empty或是\dots和直接打上三点或是\mathbf{x}^{\mathrm{T}}写成\mathbf{x} \top。
(2)写数学表达式遇到的一个问题,分段函数的表示中的某一个函数如果因为太长而写成各个小部的形式,不是很好用分段函数的表达式表达,遇到这种情况一般用文字叙述各种情况,但是用文字的化等式的表达就不是很精炼,就显得很分散。 - 令
A
=
{
3
,
5
}
\mathbf{A} = \{3, 5\}
A={3,5}, 写出
2
A
2^{\mathbf{A}}
2A.
解:
2 A = { ∅ , { 3 } , { 5 } , { 3 , 5 } } 2^{\mathbf{A}}=\{\emptyset,\{3\},\{5\},\{3,5\}\} 2A={∅,{3},{5},{3,5}} - 展开
2
∅
2^{\emptyset}
2∅.
解:
2 ∅ = { ∅ } 2^{\emptyset}=\{\emptyset\} 2∅={∅} - 令 A = { 5 , 6 , 7 , 8 , 9 } \mathbf{A} = \{5, 6, 7, 8, 9\} A={5,6,7,8,9}, 写出 A \mathbf{A} A 的其它两种表示法.
- 解:
枚举法: A = { 5 , 6 , … , 9 } \mathbf{A} = \{5, 6,\dots ,9\} A={5,6,…,9}
谓词法: A = { x ∣ x ∈ N , 5 ≤ x ≤ 9 } \mathbf{A} = \{x | x \in \mathbf{N},5 \le x \le 9 \} A={x∣x∈N,5≤x≤9} - 自己出数据, 做一个 3 × 2 3 \times 23×2 与 2 × 4 2 \times 42×4 的矩阵乘法.
[ 1 2 3 4 5 6 ] × [ 1 2 1 2 1 2 1 2 ] = [ 3 6 3 6 7 14 7 14 11 22 11 22 ] \begin{bmatrix} 1&2\\ 3&4\\ 5&6 \end{bmatrix}\times \begin{bmatrix} 1&2&1&2\\ 1&2&1&2 \end{bmatrix}= \begin{bmatrix} 3&6&3&6 \\ 7&14&7&14\\ 11&22&11&22 \end{bmatrix} ⎣⎡135246⎦⎤×[11221122]=⎣⎡371161422371161422⎦⎤ - Deep Multi-View Enhancement Hashing forImage Retrieval的错误
(1) O = { o i } i = 0 N O = \{o_i\}_{i=0}^N O={oi}i=0N应该是 O = { o i } i = 1 N O = \{o_i\}_{i=1}^N O={oi}i=1N
(2) m _ t h m\_th m_th应该是$ m _ t h m\_th m_th
(3)原文映射为 X → B \mathbf{X}\to \mathbf{B} X→B,应该是 X ↦ B \mathbf{X}\mapsto\mathbf{B} X↦B
7月27日作业
作业
-
令 A = { 1 , 2 , 5 , 8 , 9 } \mathbf{A} = \{1, 2, 5, 8, 9\} A={1,2,5,8,9} 写出 A \mathbf{A} A上的 “模 2 同余” 关系及相应的划分.
解:“模二同余”关系: R = { ( x , y ) ∈ A × A ∣ x m o d 2 = y m o d 2 } \mathbf{R}=\{(x,y) \in \mathbf{A} \times \mathbf{A} \vert x \mod 2 =y \mod 2\} R={(x,y)∈A×A∣xmod2=ymod2}
R = { ( 1 , 5 ) , ( 1 , 9 ) , ( 5 , 9 ) , ( 2 , 8 ) , ( 5 , 1 ) , ( 9 , 1 ) , ( 9 , 5 ) , ( 8 , 2 ) , ( 1 , 1 ) , ( 2 , 2 ) , ( 5 , 5 ) , ( 8 , 8 ) , ( 9 , 9 ) } \mathbf{R}=\{(1,5),(1,9),(5,9),(2,8),(5,1),(9,1),(9,5),(8,2),(1,1),(2,2),(5,5),(8,8),(9,9)\} R={(1,5),(1,9),(5,9),(2,8),(5,1),(9,1),(9,5),(8,2),(1,1),(2,2),(5,5),(8,8),(9,9)}
对原集合的划分为: P = { { 1 , 5 , 9 } , { 2 , 8 } } \mathcal{P}=\{\{1,5,9\},\{2,8\}\} P={{1,5,9},{2,8}} -
A = { 1 , 2 , 5 , 8 , 9 } \mathbf{A} = \{1, 2, 5, 8, 9\} A={1,2,5,8,9} ,自己给定两个关系 R 1 \mathbf{R1} R1和 R 2 \mathbf{R2} R2,并计算 R 1 R 2 \mathbf{R}_1\mathbf{R}_2 R1R2, R 1 + \mathbf{R}_1^+ R1+, R 1 ∗ \mathbf{R}_1^* R1∗
解:
设: R 1 = { ( x , y ) ∈ A × A ∣ x = 1 , y m o d 2 = 1 } = { ( 1 , 1 ) , ( 1 , 5 ) , ( 1 , 9 ) } \mathbf{R}_1=\{(x,y) \in \mathbf{A} \times \mathbf{A}\vert x =1,y \mod 2=1\}=\{(1,1),(1,5),(1,9)\} R1={(x,y)∈A×A∣x=1,ymod2=1}={(1,1),(1,5),(1,9)}
R 2 = { ( 1 , 5 ) , ( 9 , 8 ) } \mathbf{R}_2=\{(1,5),(9,8)\} R2={(1,5),(9,8)}
(1). R 1 R 2 = { ( 1 , 5 ) , ( 1 , 8 ) } \mathbf{R}_1\mathbf{R}_2=\{(1,5),(1,8)\} R1R2={(1,5),(1,8)}
(2). R 1 + = ⋃ i = 1 ∣ A ∣ R 1 i \mathbf{R}_1^+=\bigcup_{i = 1}^{\vert \mathbf{A} \vert} \mathbf{R}_1^i R1+=⋃i=1∣A∣R1i
首先求出 R 1 1 = { ( 1 , 1 ) , ( 1 , 5 ) , ( 1 , 9 ) } \mathbf{R}_1^1=\{(1,1),(1,5),(1,9)\} R11={(1,1),(1,5),(1,9)}
再求出 R 1 2 = R 1 1 × R 1 = R 1 1 { ( 1 , 1 ) , ( 1 , 5 ) , ( 1 , 9 ) } \mathbf{R}_1^2=\mathbf{R}_1^1 \times \mathbf{R}_1=\mathbf{R}_1^1\{(1,1),(1,5),(1,9)\} R12=R11×R1=R11{(1,1),(1,5),(1,9)}
再求出 R 1 3 = R 1 2 × R 1 = { ∅ } \mathbf{R}_1^3=\mathbf{R}_1^2 \times \mathbf{R}_1=\{\empty\} R13=R12×R1={∅}
之后对于i=4,i=5,则 R 1 i = ∅ \mathbf{R}_1^i={\empty} R1i=∅
R 1 + = R 1 1 ∪ R 1 2 ∪ R 1 3 ∪ R 1 4 ∪ R 1 5 = { ( 1 , 1 ) , ( 1 , 5 ) , ( 1 , 9 ) } \mathbf{R}_1^+=\mathbf{R}_1^1 \cup \mathbf{R}_1^2 \cup \mathbf{R}_1^3 \cup \mathbf{R}_1^4 \cup \mathbf{R}_1^5=\{(1,1),(1,5),(1,9)\} R1+=R11∪R12∪R13∪R14∪R15={(1,1),(1,5),(1,9)}
(3). R 1 ∗ = R 1 + ∪ I R 1 0 \mathbf{R}_1^*=\mathbf{R}_1^+ \cup \mathbf{I_{R1}^0} R1∗=R1+∪IR10,其中 A 0 = { ( x , x ) ∣ x ∈ A } \mathbf{A^0}=\{(x,x) \vert x \in \mathbf{A}\} A0={(x,x)∣x∈A}
A 0 = { ( 1 , 1 ) , ( 5 , 5 ) , ( 9 , 9 ) } \mathbf{A^0}=\{(1,1),(5,5),(9,9)\} A0={(1,1),(5,5),(9,9)}
R 1 ∗ = { ( 1 , 1 ) , ( 1 , 5 ) , ( 1 , 9 ) , ( 5 , 5 ) , ( 9 , 9 ) } \mathbf{R}_1^*=\{(1,1),(1,5),(1,9),(5,5),(9,9)\} R1∗={(1,1),(1,5),(1,9),(5,5),(9,9)} -
查阅粗糙集上下近似的定义并大致描述.
(1)下近似集是在那些所有的包含于X 的知识库中的集合中求并得到的(包含在X内的最大可定义集)
(2)上近似则是将那些包含X的知识库中的集合求并得到的(包含X的最小可定义集)
详细介绍:https://blog.csdn.net/qq_42769683/article/details/88321727
参考例子:https://www.jianshu.com/p/ab3135fd5d40 -
举例说明你对函数的认识.
解答:函数像是一个c语言的方法,每个函数有自己的计算方法,输入参数进去,经过函数相应运算得一个确定的运算结果。 -
自己给定一个矩阵并计算其各种范数.
-
解:设 X = [ 1 2 3 4 ] \mathbf{X}=\begin{bmatrix} 1&2 \\ 3&4 \end{bmatrix} X=[1324]
(1) l 0 l_0 l0范数:
∣ ∣ X ∣ ∣ 0 = ∣ { ( i , j ) ∣ x i j ≠ 0 } ∣ ||\mathbf{X}||_0=\vert \{(i,j)\vert x_{ij} \neq 0\}\vert ∣∣X∣∣0=∣{(i,j)∣xij=0}∣
∣ ∣ X ∣ ∣ 0 ||\mathbf{X}||_0 ∣∣X∣∣0是非0项的数目: ∣ ∣ X ∣ ∣ 0 = 4 ||\mathbf{X}||_0=4 ∣∣X∣∣0=4
(2). l 1 l_1 l1范数: ∣ ∣ X ∣ ∣ 1 = ∑ i , j ∣ x i j ∣ = ∣ 1 ∣ + ∣ 2 ∣ + ∣ 3 ∣ + ∣ 4 ∣ = 10 ||\mathbf{X}||_1 = \sum_{i, j} \vert x_{ij}\vert =\vert1\vert+\vert2\vert+\vert3\vert+\vert4\vert=10 ∣∣X∣∣1=i,j∑∣xij∣=∣1∣+∣2∣+∣3∣+∣4∣=10
(3) l 2 l_2 l2范数: ∣ ∣ X ∣ ∣ 2 = ∑ i , j x i j 2 = 1 2 + 2 2 + 3 3 + 4 2 = 30 ||\mathbf{X}||_2 = \sqrt{\sum_{i, j} x^2_{ij}} =\sqrt{1^2+2^2+3^3+4^2}=\sqrt{30} ∣∣X∣∣2=i,j∑xij2=12+22+33+42=30
∣ ∣ X ∣ ∣ 2 = 5.477 ||\mathbf{X}||_2 =5.477 ∣∣X∣∣2=5.477
(4) l ∞ l_\infty l∞范数: ∣ ∣ X ∣ ∣ ∞ = max i , j ∣ x i j ∣ = ∣ 4 ∣ = 4 ||\mathbf{X}||_{\infty} = \max_{i, j} \vert x_{ij} \vert=\vert4\vert=4 ∣∣X∣∣∞=i,jmax∣xij∣=∣4∣=4
(5) l p l_p lp范数: ∣ ∣ X ∣ ∣ p = ( ∑ i , j ∣ x i j ∣ p ) 1 p ||\mathbf{X}||_p = \left( \sum_{i, j} \vert x_{ij}\vert^p\right)^\frac{1}{p} ∣∣X∣∣p=(i,j∑∣xij∣p)p1
令p=3, ∣ ∣ X ∣ ∣ 3 = ( ∑ i , j ∣ x i j ∣ 3 ) 1 3 ||\mathbf{X}||_3 = \left( \sum_{i, j} \vert x_{ij}\vert^3\right)^\frac{1}{3} ∣∣X∣∣3=(i,j∑∣xij∣3)31
∣ ∣ X ∣ ∣ 3 = ( ∣ 1 ∣ 3 + ∣ 2 ∣ 3 + ∣ 3 ∣ 3 + ∣ 4 ∣ 3 ) 1 3 = 10 0 1 3 = 4.642 ||\mathbf{X}||_3 =( \vert1\vert ^3+\vert2\vert ^3+\vert3\vert ^3+\vert4\vert ^3)^\frac{1}{3}=100^\frac{1}{3}=4.642 ∣∣X∣∣3=(∣1∣3+∣2∣3+∣3∣3+∣4∣3)31=10031=4.642 -
解释 推荐系统: 问题、算法与研究思路 2.1 中的优化目标
min ∑ ( i , j ) ∈ Ω ( f ( x i , t j ) − r i j ) 2 \min \sum_{(i, j) \in \Omega} (f(\mathbf{x}_i, \mathbf{t}_j) - r_{ij})^2 min(i,j)∈Ω∑(f(xi,tj)−rij)2各符号及含义.
解答:用方差的方法求最小误差,求经过函数计算的值与评分表中对应的非零元素的差距,体现出差距的大小,目标就是让方差最小,求得最符合期望的值。
latex符号记录
基本
数学表达 | latex | 解释 |
---|---|---|
∑ i = 1 n i \sum_{i = 1}^n i ∑i=1ni | \sum_{i = 1}^n i | 求和 |
n ( n + 1 ) 2 \frac{n (n + 1)}{2} 2n(n+1) | \frac{n (n + 1)}{2} | 分数 |
a ≠ b a \ne b a=b | a \ne b | 非等于 |
1 \sqrt{1} 1 | \sqrt{1} | 开方 |
∏ i = 1 4 i \prod_{i = 1}^{4} i ∏i=14i | \prod_{i = 1}^{4} i | 累乘 |
∫ 0 10 x d x \int_{0}^{10}x \mathrm{d}x ∫010xdx | \int_{0}^{10}x \mathrm{d}x | 定积分 |
集合
数学表达 | latex | 解释 |
---|---|---|
x \mathbf{x} x | mathbf{x} | 表示向量、集合 |
x \bm{x} x | \bm{x} | 表示向量、集合 |
x \boldsymbol{x} x | \boldsymbol{x} | 表示向量、集合 |
A = { 0 , 1 , 2 , … } \mathbf{A} = \{0, 1, 2, \dots \} A={0,1,2,…} | \mathbf{A} = {0, 1, 2, \dots } | 集合 |
Ω = { 0 , 1 , 2 , … } \mathbf{\Omega} = \{0, 1, 2, \dots \} Ω={0,1,2,…} | \mathbf{\Omega} = {0, 1, 2, \dots } | |
X = { x i } i = 1 n \mathbf{X} = \{x_i\}_{i = 1}^n X={xi}i=1n | \mathbf{X} = {x_i}_{i = 1}^n | 表示集合有 n 个元素 |
x ∈ N x \in \mathbf{N} x∈N | x \in \mathbf{N} | 存在 ∈ \in ∈ |
R \mathbb{R} R | \mathbb{R} | 实数集合 |
R \mathcal{R} R | \mathcal{R} | 实数集合 |
∅ \emptyset ∅ | \emptyset | 空集 |
A ⊆ B \mathbf{A} \subseteq \mathbf{B} A⊆B | \mathbf{A} \subseteq \mathbf{B} | 真子集 |
∣ X ∣ \vert \mathbf{X} \vert ∣X∣ | \vert \mathbf{X} \vert | 指 X \mathbf{X} X中元素个数 |
X ∪ Y \mathbf{X} \cup \mathbf{Y} X∪Y | \mathbf{X} \cup \mathbf{Y} | 并 |
X ∩ Y \mathbf{X} \cap \mathbf{Y} X∩Y | \mathbf{X} \cap \mathbf{Y} | 交 |
X ∖ Y \mathbf{X} \setminus \mathbf{Y} X∖Y | \mathbf{X} \setminus \mathbf{Y} | 差 |
X ‾ = U ∖ X \overline{\mathbf{X}} = \mathbf{U} \setminus \mathbf{X} X=U∖X | \overline{\mathbf{X}} = \mathbf{U} \setminus \mathbf{X} | 补 |
¬ X \neg \mathbf{X} ¬X | \neg \mathbf{X} | 补 |
⋃ i = 1 n X i \bigcup_{i = 1}^n \mathbf{X}_i ⋃i=1nXi | \bigcup_{i = 1}^n \mathbf{X}_i | 表示n个集合的并 |
⋂ i = 1 n X i \bigcap_{i = 1}^n \mathbf{X}_i ⋂i=1nXi | \bigcap_{i = 1}^n \mathbf{X}_i | 表示n个集合的交 |
2 A 2^{\mathbf{A}} 2A | 2^{\mathbf{A}} | 幂集 |
A × B \mathbf{A} \times \mathbf{B} A×B | \mathbf{A} \times \mathbf{B} | 笛卡尔积 |
向量
数学表达 | latex | 解释 |
---|---|---|
x T \mathbf{x}^{\mathrm{T}} xT | \mathbf{x}^{\mathrm{T}} | 向量的转置 |
a ⋅ b \mathbf{a} \cdot \mathbf{b} a⋅b | \mathbf{a} \cdot \mathbf{b} | 内积 |
x w T = ∑ i = 1 n x i w i \mathbf{x}\mathbf{w}^{\mathrm{T}}=\sum_{i=1}^n \bm{x}_i \bm{w}_i xwT=∑i=1nxiwi | \mathbf{x}\mathbf{w}{\mathrm{T}}=\sum_{i=1}n \bm{x}_i \bm{w}_i | 加权和 |
X ∈ R n × m \mathbf{X} \in \mathbb{R}^{n \times m} X∈Rn×m | \mathbf{X} \in \mathbb{R}^{n \times m} | 一个n行m列的矩阵 |
X = { x i } i = 1 n = { x 1 , x 2 , … , x n } \mathbf{X}=\{\mathbf{x}_i\}_{i=1}^n=\{\mathbf{x}_1,\mathbf{x}_2, \dots,\mathbf{x}_n \} X={xi}i=1n={x1,x2,…,xn} | \mathbf{X}={\mathbf{x}i}{i=1}^n={\mathbf{x}_1,\mathbf{x}_2, \dots,\mathbf{x}_n } | 矩阵(实例)表示 |