第一天
上午
题1.6
问题描述:描述你在学习、使用数学表达式时的困难, 可举例说明.
答:1.数学表达式有很多细节不知道,导致表达式错误或者不专业。比如集合之间的映射要用“
↦
\mapsto
↦”,而函数的映射关系用“
→
\rightarrow
→”.
2.如何把自己心里的算法思路表达成数学式?数学表达式又该如何用语言简单明了解释它,不知道从何处下手.
3.定义数学表达式不够严谨,经不起推敲.
下午
题2.6
1.令
A
=
{
3
,
5
}
\mathbf{A}=\{3, 5\}
A={3,5},写出
2
A
2^{\mathbf{A}}
2A.
答:
2
A
=
{
∅
,
{
3
}
,
{
5
}
,
{
3
,
5
}
}
2^{\mathbf{A}}=\{\emptyset, \{3\}, \{5\}, \{3, 5\}\}
2A={∅,{3},{5},{3,5}}.
2.展开
2
∅
2^{\empty}
2∅.
答:
∣
2
∅
∣
=
2
∣
∅
∣
=
2
0
=
1
\vert2^{\empty}\vert=2^{\lvert \empty \rvert}=2^0=1
∣2∅∣=2∣∅∣=20=1,故
2
∅
=
{
∅
}
2^{\empty}=\{\empty\}
2∅={∅}.
3.令
A
=
{
5
,
6
,
7
,
8
,
9
}
\mathbf{A}=\{5, 6, 7, 8, 9\}
A={5,6,7,8,9},写出
A
\mathbf{A}
A的其他两种表达式.
答:①
A
=
[
5..9
]
\mathbf{A}=[5..9]
A=[5..9];②
A
=
{
x
∈
N
∣
x
∈
[
5
,
9
]
}
\mathbf{A}=\{x \in \mathbf{N} \vert x\in[5,9]\}
A={x∈N∣x∈[5,9]};③
A
=
{
5
,
6
,
…
,
9
}
\mathbf{A}=\{5, 6, \dots, 9\}
A={5,6,…,9}.
晚上
题3.3
问题描述:自己出一个数据,做一个
3
×
2
3\times2
3×2与
2
×
4
2\times 4
2×4的矩阵乘法.
答:设
A
=
[
1
2
3
4
5
6
]
\mathbf{A}=\begin {bmatrix} 1&2\\ 3&4\\ 5&6\end {bmatrix}
A=⎣⎡135246⎦⎤,
B
=
[
1
2
3
4
5
6
7
8
]
\mathbf{B}=\begin {bmatrix} 1&2&3&4\\ 5&6&7&8\end {bmatrix}
B=[15263748],则
A
×
B
=
[
1
2
3
4
5
6
]
×
[
1
2
3
4
5
6
7
8
]
=
[
11
14
7
20
23
30
17
44
35
46
27
68
]
\mathbf{A}\times \mathbf{B}=\begin {bmatrix}1&2\\ 3&4\\ 5&6\end {bmatrix}\times\begin {bmatrix} 1&2&3&4\\ 5&6&7&8\end {bmatrix}=\begin {bmatrix} 11&14&7&20\\ 23&30&17&44\\ 35&46&27&68\end {bmatrix}
A×B=⎣⎡135246⎦⎤×[15263748]=⎣⎡11233514304671727204468⎦⎤
补充题
问题描述:找出Deep Multi-View 符号系统的矛盾
答:
如上标注:
①:
o
i
\mathbf{o_i}
oi为一个对象,应该是一个向量,此处应该为黑体.
②:此处“m”应该为斜体.
③:
B
\mathbf{B}
B为一个集合,不应该使用
∈
\in
∈,而是
⊆
\subseteq
⊆.
④:1D代表一维,应该表达为:
1
−
D
1-D
1−D.
⑥:前文的正1未加“+”号,前后不一致.
第二天
上午
题4.6
1.令
A
=
{
1
,
2
,
5
,
8
,
9
}
\mathbf{A}=\{1, 2, 5, 8, 9\}
A={1,2,5,8,9},写出
A
\mathbf{A}
A上的“模2同余”关系及相应的划分.
答:
R
=
{
(
a
,
b
)
∈
A
×
A
∣
a
m
o
d
2
=
b
m
o
d
2
}
\mathbf{R}=\{(a,b)\in\mathbf{A}\times\mathbf{A} \vert a\mod2=b\mod2\}
R={(a,b)∈A×A∣amod2=bmod2}.
模2余0:
(
2
,
2
)
,
(
2
,
8
)
,
(
8
,
2
)
,
(
8
,
8
)
(2, 2),(2, 8),(8, 2),(8, 8)
(2,2),(2,8),(8,2),(8,8)
模2余1:
(
1
,
1
)
,
(
1
,
5
)
,
(
1
,
9
)
,
(
5
,
1
)
,
(
5
,
5
)
,
(
5
,
9
)
,
(
9
,
1
)
,
(
9
,
5
)
,
(
9
,
9
)
(1,1),(1,5),(1,9),(5,1),(5,5),(5,9),(9,1),(9,5),(9,9)
(1,1),(1,5),(1,9),(5,1),(5,5),(5,9),(9,1),(9,5),(9,9)
故:
R
=
{
(
2
,
2
)
,
(
2
,
8
)
,
(
8
,
2
)
,
(
8
,
8
)
,
(
1
,
1
)
,
(
1
,
5
)
,
(
1
,
9
)
,
(
5
,
1
)
,
(
5
,
5
)
,
(
5
,
9
)
,
(
9
,
1
)
,
(
9
,
5
)
,
(
9
,
9
)
}
\mathbf{R}=\{(2, 2),(2, 8),(8, 2),(8, 8),(1,1),(1,5),(1,9),(5,1),(5,5),(5,9),(9,1),(9,5),(9,9)\}
R={(2,2),(2,8),(8,2),(8,8),(1,1),(1,5),(1,9),(5,1),(5,5),(5,9),(9,1),(9,5),(9,9)}.
P
=
{
{
2
,
8
}
,
{
1
,
5
,
9
}
}
\mathcal{P}=\{\{2,8\}, \{1, 5, 9\}\}
P={{2,8},{1,5,9}}
2.
A
=
{
1
,
2
,
5
,
8
,
9
}
\mathbf{A}=\{1, 2, 5, 8, 9\}
A={1,2,5,8,9},自己给定两个关系
R
1
\mathbf{R}_1
R1和
R
2
\mathbf{R}_2
R2,并计算
R
1
R
2
,
R
1
+
,
R
1
∗
\mathbf{R}_1\mathbf{R}_2,\mathbf{R}_1^+,\mathbf{R}_1^*
R1R2,R1+,R1∗.
答:设
R
1
=
{
(
1
,
2
)
,
(
1
,
5
)
}
,
R
2
=
{
(
2
,
1
)
,
(
5
,
8
)
}
\mathbf{R}_1=\{(1, 2), (1, 5)\},\mathbf{R}_2=\{(2,1), (5,8)\}
R1={(1,2),(1,5)},R2={(2,1),(5,8)}
R
2
∘
R
1
=
{
(
1
,
1
)
,
(
1
,
8
)
}
\mathbf{R}_2 \circ\mathbf{R}_1=\{(1,1), (1,8)\}
R2∘R1={(1,1),(1,8)}
R
1
+
=
⋃
i
=
1
∣
A
∣
R
1
i
=
R
1
1
∪
R
1
2
∪
R
1
3
∪
R
1
4
∪
R
1
5
,
R
1
1
=
R
1
,
R
1
R
1
=
R
1
3
=
R
1
4
=
R
1
5
=
∅
.
\mathbf{R}_1^+=\bigcup_{i=1}^{\vert\mathbf{A}\vert}\mathbf{R}_1^i=\mathbf{R}_1^1\cup\mathbf{R}_1^2\cup\mathbf{R}_1^3\cup\mathbf{R}_1^4\cup\mathbf{R}_1^5,\mathbf{R}_1^1=\mathbf{R}_1,\mathbf{R}_1\mathbf{R}_1=\mathbf{R}_1^3=\mathbf{R}_1^4=\mathbf{R}_1^5=\empty.
R1+=⋃i=1∣A∣R1i=R11∪R12∪R13∪R14∪R15,R11=R1,R1R1=R13=R14=R15=∅.
故
R
1
+
=
R
1
=
{
(
1
,
2
)
,
(
1
,
5
)
}
\mathbf{R}_1^+=\mathbf{R}_1=\{(1, 2), (1,5)\}
R1+=R1={(1,2),(1,5)}.
R
1
∗
=
R
1
+
∪
R
0
,
R
0
=
{
(
1
,
1
)
,
(
2
,
2
)
,
(
5
,
5
)
,
(
8
,
8
)
,
(
9
,
9
)
}
\mathbf{R}_1^*=\mathbf{R}_1^+\cup\mathbf{R}^0,\mathbf{R}^0=\{(1,1), (2,2), (5,5), (8,8), (9,9)\}
R1∗=R1+∪R0,R0={(1,1),(2,2),(5,5),(8,8),(9,9)}
故
R
1
∗
=
{
(
1
,
2
)
,
(
1
,
5
)
,
(
1
,
1
)
,
(
2
,
2
)
,
(
5
,
5
)
,
(
8
,
8
)
,
(
9
,
9
)
}
\mathbf{R}_1^*=\{(1,2), (1,5), (1,1), (2,2), (5,5), (8,8), (9,9)\}
R1∗={(1,2),(1,5),(1,1),(2,2),(5,5),(8,8),(9,9)}
3.查阅粗糙集上下近似的定义并大致描述.
答:设
X
⊆
U
\mathbf{X}\subseteq\mathbf{U}
X⊆U是任一子集,
R
\mathbf{R}
R是
U
\mathbf{U}
U上的等价关系,下近似集:
R
‾
(
X
)
=
U
{
Y
∈
U
/
R
,
Y
⊆
X
}
\underline{R}(\mathbf{X})=\mathbf{U}\{\mathbf{Y}\in\mathbf{U}/\mathbf{R},\mathbf{Y} \subseteq \mathbf{X}\}
R(X)=U{Y∈U/R,Y⊆X}.上近似集:
R
‾
(
X
)
=
U
{
Y
∈
U
/
R
,
Y
∩
X
≠
∅
}
\overline{R}(\mathbf{X})=\mathbf{U}\{\mathbf{Y} \in \mathbf{U}/ \mathbf{R},\mathbf{Y}\cap \mathbf{X}\ne \empty\}
R(X)=U{Y∈U/R,Y∩X=∅}.
下午
题5.5
问题描述:举例说明你对函数的认识.
答:函数是一个集合到另一个集合的一对一或者多对一的映射,也可以看作空间的一个点。比如:
z
=
f
(
x
,
y
)
=
x
2
+
y
2
z=f(x,y)=x^2+y^2
z=f(x,y)=x2+y2,二维平面确定的点
(
x
,
y
)
(x,y)
(x,y)有唯一对应的
z
z
z,也可以看作确定的三维空间中的一个唯一确定的点
(
x
,
y
,
z
)
(x,y,z)
(x,y,z).
晚上
题6.5
问题描述:自己给定一个矩阵并计算其各种范数.
答:设
A
=
[
1
2
−
3
4
0
6
]
\mathbf{A}=\begin {bmatrix} 1&2\\ -3&4\\ 0&6\end {bmatrix}
A=⎣⎡1−30246⎦⎤,则:
∥
A
∥
0
=
∣
{
(
i
,
j
)
∣
a
i
j
≠
0
}
∣
=
5
\|\mathbf{A}\|_0=\lvert \{(i,j)\vert a_{ij} \ne 0\}\rvert=5
∥A∥0=∣{(i,j)∣aij=0}∣=5.
∥
A
∥
1
=
∑
i
,
j
∣
a
i
j
∣
=
16
\|\mathbf{A}\|_1=\sum_{i,j}\lvert a_{ij}\rvert=16
∥A∥1=∑i,j∣aij∣=16.
∥
A
∥
2
=
∑
i
,
j
a
i
j
2
=
2
11
,
∥
A
∥
2
2
=
∑
i
,
j
a
i
j
2
=
44
\|\mathbf{A}\|_2=\sqrt{\sum_{i,j}a_{ij}^2}=2\sqrt{11},\|\mathbf{A\|}_2^2=\sum_{i,j}a_{ij}^2=44
∥A∥2=∑i,jaij2=211,∥A∥22=∑i,jaij2=44.
∥
A
∥
∞
=
max
i
,
j
∣
a
i
j
∣
=
6
\|\mathbf{A}\|_{\infty}=\max_{i,j}\vert a_{ij}\vert=6
∥A∥∞=maxi,j∣aij∣=6.
题7.3
问题描述:解释推荐系统: 问题、算法与研究思路 2.1中的优化目标
min
∑
(
i
,
j
)
∈
Ω
(
f
(
x
i
,
t
j
)
−
r
i
j
)
2
\min\sum_{(i,j)\in\Omega}(f(\mathbf{x}_i,\mathbf{t}_j)-r_{ij})^2
min(i,j)∈Ω∑(f(xi,tj)−rij)2各符号及含义.
答:对
∀
(
i
,
j
)
∈
Ω
\forall(i,j)\in \Omega
∀(i,j)∈Ω,即将评分表的每一个数据作为输入,将模型产生的输出与相应的评分表的值求差距的平方的最小值。
第三天
上午
题8.4
1.将向量下标为偶数的分量
(
x
2
,
x
4
,
…
)
(x2,x4,\dots)
(x2,x4,…)累加,写出相应表达式.
答:
∑
i
m
o
d
2
=
0
x
i
\sum_{i \mod 2=0}x_i
imod2=0∑xi
int sum=0;
for(int i=1;i<=n;i++)
{
if(i%2==0)
sum+=x[i];
}
2 各出一道累加、累乘、积分表达式的习题,并给出标准答案.
累加:
∑
i
=
1
10
i
=
1
+
2
+
3
+
⋯
+
10
=
55
\sum_{i=1}^{10}i=1+2+3+\dots+10=55
i=1∑10i=1+2+3+⋯+10=55
int sum=0;
for(int i=1;i<=10;i++)
{
sum+=i;
}
累乘: ∏ i = 1 3 i 2 = 1 2 × 2 2 × 3 2 = 36 \prod_{i=1}^3i^2=1^2\times2^2\times3^2=36 i=1∏3i2=12×22×32=36
int product=1;
for(int i=1;i<=3;i++)
product*=i*i;
积分: ∫ 1 4 ( 2 x + 1 ) d x = ( x 2 + x ) ∣ 1 4 = 18 \int_{1}^4(2x+1)\mathrm{d}x=(x^2+x)\vert_1^4=18 ∫14(2x+1)dx=(x2+x)∣14=18
double integration=0;
double deltax=0.01;
for(double x=1;x<=4;x+=deltax)
{
integration+=(2*x+1)*deltax;
}
3 你使用过三重累加吗?描述一下其应用.
答:三重累加在一定条件下可以转化为三重积分,在数学上,三重积分可以看作是几何体的测度,在物理应用上,可以看作是不均匀物体的质量。
4 给一个常用的积分,将手算结果与程序结果相比对.
答:
∫
0
5
(
2
x
)
d
x
=
x
2
∣
0
5
=
25
\int_{0}^5(2x)\mathrm{d}x=x^2\vert_0^5=25
∫05(2x)dx=x2∣05=25
程序:
结果:
下午
题9.3
问题描述:自己写一个小例子
(
n
=
3
,
m
=
1
)
(n=3,m=1)
(n=3,m=1)来验证最小二乘法.
答:给定数据集
X
=
[
x
i
j
]
3
×
2
=
[
1
2
1
3
1
4
]
\mathbf{X}=[x_{ij}]_{3\times2}=\begin{bmatrix} 1&2\\ 1&3 \\1&4\end{bmatrix}
X=[xij]3×2=⎣⎡111234⎦⎤与其标签
Y
=
[
y
1
,
…
,
y
n
]
T
=
[
5
,
7
,
9
]
T
\mathbf{Y}=[y_1,\dots,y_n]^\mathrm{T}=[5, 7, 9]^{\mathrm{T}}
Y=[y1,…,yn]T=[5,7,9]T.
计算
w
∗
=
arg min
w
∣
∣
X
w
−
Y
∣
∣
2
2
,
\mathbf{w}^*=\argmin_{\mathbf{w}}||\mathbf{X}\mathbf{w}-\mathbf{Y}||_2^2,
w∗=wargmin∣∣Xw−Y∣∣22,其中
∣
∣
X
w
−
Y
∣
∣
2
2
=
(
X
w
−
Y
)
T
(
X
w
−
Y
)
=
(
w
T
X
T
−
Y
T
)
(
X
w
−
Y
)
=
w
T
X
T
X
w
−
w
T
X
T
Y
−
Y
T
X
w
+
Y
T
Y
||\mathbf{X}\mathbf{w}-\mathbf{Y}||_2^2=(\mathbf{X}\mathbf{w}-\mathbf{Y})^{\mathrm{T}}(\mathbf{X}\mathbf{w}-\mathbf{Y})=(\mathbf{w}^{\mathrm{T}}\mathbf{X}^{\mathrm{T}}-\mathbf{Y}^{\mathrm{T}})(\mathbf{X}\mathbf{w}-\mathbf{Y})=\mathbf{w}^{\mathrm{T}}\mathbf{X}^{\mathrm{T}}\mathbf{X}\mathbf{w}-\mathbf{w}^{\mathrm{T}}\mathbf{X}^{\mathrm{T}}\mathbf{Y}-\mathbf{Y}^\mathrm{T}\mathbf{X}\mathbf{w}+\mathbf{Y}^\mathrm{T}\mathbf{Y}
∣∣Xw−Y∣∣22=(Xw−Y)T(Xw−Y)=(wTXT−YT)(Xw−Y)=wTXTXw−wTXTY−YTXw+YTY
对
w
\mathbf{w}
w求导并令其为0得:
w
=
(
X
T
X
)
−
1
X
T
Y
=
(
[
1
1
1
2
3
4
]
×
[
1
2
1
3
1
4
]
)
−
1
×
[
1
1
1
2
3
4
]
×
[
5
7
9
]
\mathbf{w}=(\mathbf{X}^{\mathrm{T}}\mathbf{X})^{-1}\mathbf{X}^{\mathrm{T}}\mathbf{Y}=(\begin{bmatrix} 1&1&1\\2&3&4\end{bmatrix}\times \begin{bmatrix} 1&2\\1&3\\1&4\end{bmatrix})^{-1}\times \begin{bmatrix} 1&1&1\\2&3&4\end{bmatrix}\times\begin{bmatrix}5\\7\\9\end{bmatrix}
w=(XTX)−1XTY=([121314]×⎣⎡111234⎦⎤)−1×[121314]×⎣⎡579⎦⎤
w
=
(
X
T
X
)
−
1
X
T
Y
=
[
3
9
9
29
]
−
1
×
[
21
67
]
=
[
29
6
−
3
2
−
3
2
1
2
]
×
[
21
67
]
=
[
1
2
]
\mathbf{w}=(\mathbf{X}^{\mathrm{T}}\mathbf{X})^{-1}\mathbf{X}^{\mathrm{T}}\mathbf{Y}=\begin{bmatrix}3&9\\9&29\end{bmatrix}^{-1}\times\begin{bmatrix}21\\67\end{bmatrix}=\begin{bmatrix}\frac{29}{6}&-\frac{3}{2}\\-\frac{3}{2}&\frac{1}{2}\end{bmatrix}\times\begin{bmatrix}21\\67\end{bmatrix}=\begin{bmatrix}1\\2\end{bmatrix}
w=(XTX)−1XTY=[39929]−1×[2167]=[629−23−2321]×[2167]=[12]
得
w
=
[
1
2
]
\mathbf{w}=\begin{bmatrix}1\\2\end{bmatrix}
w=[12].故模型为:
y
=
2
x
+
1
y=2x+1
y=2x+1.
验证:
(
x
1
,
y
1
)
=
(
2
,
5
)
:
5
=
2
×
2
+
1
;
(x_1,y_1)=(2,5):5=2\times2+1;
(x1,y1)=(2,5):5=2×2+1;
(
x
2
,
y
2
)
=
(
3
,
7
)
:
7
=
2
×
3
+
1
;
(x_2,y_2)=(3,7):7=2\times3+1;
(x2,y2)=(3,7):7=2×3+1;
(
x
3
,
y
3
)
=
(
4
,
9
)
:
9
=
2
×
4
+
1
;
(x_3,y_3)=(4,9):9=2\times4+1;
(x3,y3)=(4,9):9=2×4+1;
故使用最小二乘法得到的结果完全符合数据集的数据.
晚上
题10.6
问题描述:自己推导一遍,并描述这个方法的特点(不少于5条).
答:在二维平面分类,需要一条直线将它们分开,当是多维空间时,需要超平面将两类事物进行分类,分类成正例和负例。如何判断这个超平面将它们的效果是好是坏?可以根据分错的个数来判断,但是存在多个超平面都可以完全分开正例与负例呢,可以根据对象到超平面的距离来衡量(距离越大越好):分类正确,那么对象离超平面越远越好,分类不正确,离超平面越近越接近0.
1)计算点到超平面的距离=
x
w
\mathbf{xw}
xw
2)使用sigmoid函数将距离转换为概率
P
(
y
=
1
∣
x
;
w
)
=
1
1
+
e
−
x
w
P(y=1|\mathbf{x};\mathbf{w})=\frac{1}{1+e^{-\mathbf{xw}}}
P(y=1∣x;w)=1+e−xw1;
含义为:距离越大,那么它是正例的概率接近1;如果距离很小
(
−
∞
)
(-\infty)
(−∞)时,它是正例的概率几乎为0,它为负例的概率接近1.
3)统一
y
i
=
0
y_i=0
yi=0或
y
i
=
1
y_i=1
yi=1:
P
(
y
i
∣
x
i
;
w
)
=
P
(
y
i
=
1
∣
x
i
;
w
)
y
i
(
1
−
P
(
y
i
=
1
∣
x
i
;
w
)
)
1
−
y
i
P(y_i\vert\mathbf{x}_i;\mathbf{w})=P(y_i=1\vert\mathbf{x}_i;\mathbf{w})^{y_i}(1-P(y_i=1\vert\mathbf{x}_i;\mathbf{w}))^{1-y_i}
P(yi∣xi;w)=P(yi=1∣xi;w)yi(1−P(yi=1∣xi;w))1−yi
当
y
i
=
1
y_i=1
yi=1时:
P
(
y
i
∣
x
i
;
w
)
=
P
(
y
i
=
1
∣
x
i
;
w
)
P(y_i\vert\mathbf{x}_i;\mathbf{w})=P(y_i=1\vert\mathbf{x}_i;\mathbf{w})
P(yi∣xi;w)=P(yi=1∣xi;w)
当
y
i
=
0
y_i=0
yi=0时:
P
(
y
i
∣
x
i
;
w
)
=
1
−
P
(
y
i
=
1
∣
x
i
;
w
)
P(y_i\vert\mathbf{x}_i;\mathbf{w})=1-P(y_i=1\vert\mathbf{x}_i;\mathbf{w})
P(yi∣xi;w)=1−P(yi=1∣xi;w)
4)因为是概率,故用最大似然估计来定义优化目标:
w
=
arg max
w
∏
i
=
1
n
P
(
y
i
∣
x
i
;
w
)
\mathbf{w}=\argmax_{\mathbf{w}}\prod_{i=1}^{n}P(y_i\vert\mathbf{x}_i;\mathbf{w})
w=wargmaxi=1∏nP(yi∣xi;w)
5)计算最大似然估计,由于是连乘,不方便计算,求其对数化简,不改变取得最大值的
w
\mathbf{w}
w的值:
log
L
(
w
)
=
∑
i
=
1
n
log
P
(
y
i
∣
x
i
;
w
)
\log L(\mathbf{w}) =\sum_{i=1}^{n}\log P(y_i\vert\mathbf{x}_i;\mathbf{w})
logL(w)=i=1∑nlogP(yi∣xi;w)
log
L
(
w
)
=
∑
i
=
1
n
y
i
log
P
(
y
i
=
1
∣
x
i
;
w
)
+
(
1
−
y
i
)
log
(
1
−
P
(
y
i
=
1
∣
x
i
;
w
)
)
\log L(\mathbf{w}) =\sum_{i=1}^{n}y_i\log P(y_i=1\vert\mathbf{x}_i;\mathbf{w})+(1-y_i)\log(1-P(y_i=1\vert\mathbf{x}_i;\mathbf{w}))
logL(w)=i=1∑nyilogP(yi=1∣xi;w)+(1−yi)log(1−P(yi=1∣xi;w))
log
L
(
w
)
=
∑
i
=
1
n
y
i
log
P
(
y
i
=
1
∣
x
i
;
w
)
1
−
P
(
y
i
=
1
∣
x
i
;
w
)
+
log
(
1
−
P
(
y
i
=
1
∣
x
i
;
w
)
)
\log L(\mathbf{w}) =\sum_{i=1}^{n}y_i\log \frac{P(y_i=1\vert\mathbf{x}_i;\mathbf{w})}{1-P(y_i=1\vert\mathbf{x}_i;\mathbf{w})}+\log(1-P(y_i=1\vert\mathbf{x}_i;\mathbf{w}))
logL(w)=i=1∑nyilog1−P(yi=1∣xi;w)P(yi=1∣xi;w)+log(1−P(yi=1∣xi;w))
log
L
(
w
)
=
∑
i
=
1
n
y
i
x
i
w
−
log
(
1
+
e
x
i
w
)
\log L(\mathbf{w}) =\sum_{i=1}^ny_i\mathbf{x}_i\mathbf{w}-\log(1+e^{\mathbf{x}_i\mathbf{w}})
logL(w)=i=1∑nyixiw−log(1+exiw)
6)对
w
\mathbf{w}
w求偏导为:
∂
log
L
(
w
)
∂
w
=
∑
i
=
1
n
y
i
x
i
−
e
x
i
w
1
+
e
x
i
w
x
i
\frac{\partial \log L(\mathbf{w})}{\partial{\mathbf{w}}}=\sum_{i=1}^ny_i\mathbf{x}_i-\frac{e^{\mathbf{x}_i\mathbf{w}}}{1+e^{\mathbf{x}_i\mathbf{w}}}\mathbf{x}_i
∂w∂logL(w)=i=1∑nyixi−1+exiwexiwxi
∂
log
L
(
w
)
∂
w
=
∑
i
=
1
n
(
y
i
−
e
x
i
w
1
+
e
x
i
w
)
x
i
\frac{\partial \log L(\mathbf{w})}{\partial{\mathbf{w}}}=\sum_{i=1}^n(y_i-\frac{e^{\mathbf{x}_i\mathbf{w}}}{1+e^{\mathbf{x}_i\mathbf{w}}})\mathbf{x}_i
∂w∂logL(w)=i=1∑n(yi−1+exiwexiw)xi
7)由于无法通过导数为0来得到极值,故使用梯度下降法:
w
t
+
1
=
w
t
−
α
∂
log
L
(
w
)
∂
w
\mathbf{w}^{t+1}=\mathbf{w}^{t}-\alpha\frac{\partial \log L(\mathbf{w})}{\partial{\mathbf{w}}}
wt+1=wt−α∂w∂logL(w)不断更新,直到导数为0或接近0.
特点:
1)使用点到超平面的距离:
x
w
\mathbf{xw}
xw;
2)使用了sigmoid函数,将距离映射成概率;
3)将
w
\mathbf{w}
w写成参数;
4)将
y
i
=
1
y_i=1
yi=1和
y
i
=
0
y_i=0
yi=0统一成一个表达式;
5)每个对象都考虑,使用连乘;
6)取
log
\log
log简化优化目标;
7)使用最大似然估计试图直接求出
w
\mathbf{w}
w;
8)求导为0计算最小值失败时,采用了梯度下降法.