文章目录
六、函数
函数(映射)由定义域与值域,并且对于定义域的每个值,在值域中有且仅有一个值与其对应。
当定义域与值域仅涉及到数(实数、虚数或其子集时),习惯称为函数;其它情况,习惯称为映射。
6.1 一元函数
f
:
R
→
R
f: \mathbb{R} \to \mathbb{R}
f:R→R,源码为:f: \mathbb{R} \to \mathbb{R};
f
(
x
)
=
x
2
+
1
f(x)=x^{2}+1
f(x)=x2+1,源码为:f(x)=x^{2}+1;
x
↦
x
2
+
1
x \mapsto x^2 + 1
x↦x2+1,源码为:x \mapsto x^2 + 1;
注意:
- 函数的定义域必须准确申明;
- 函数的值域可以写成实际取值范围的超集(超集指的是一个包含另一个集合所有元素的集合),例如实际取值范围为: [ 1 , ∞ ) [1, \infty) [1,∞)(源码为[1, \infty)),也可以写为: R \mathbb{R} R;
- 可以多对一,但是不可以一对多;
- 逆函数
f
−
1
(
x
)
\mathbf{f}^{-1}(x)
f−1(x)不一定存在,如果存在,那就是一一映射关系;
练习: 画出这个函数的曲线;
讨论: -
f
:
R
→
R
f: \mathbb{R} \to \mathbb{R}
f:R→R 的点构成
R
×
R
\mathbb{R} \times \mathbb{R}
R×R 的子集,它可以看做
R
\mathbb{R}
R 上的二元关系吗?
反过来说肯定不行,例如: x 2 + y 2 = 1 x^2 + y^2 = 1 x2+y2=1 可以看做是 R \mathbb{R} R 上的二元关系,但它无法写成 y = f ( x ) y=f(x) y=f(x) 的形式。在某些领域所说的多解性,就是指 f ( x ) f(x) f(x)有多种可能,所以无法获得确定的函数。在这里,如果 x = 0 x=0 x=0,则 y = ± 1 y = \pm 1 y=±1(源码为y = \pm 1)。
6.2 多元函数
f
:
R
2
→
R
f: \mathbb{R}^2 \to \mathbb{R}
f:R2→R,源码为f: \mathbb{R}^2 \to \mathbb{R};
f
(
x
,
y
)
=
x
2
+
y
2
f(x,y) = x^2 + y^2
f(x,y)=x2+y2
思考:这个函数什么样子?
机器学习的回归,其实就是学习函数。
f
:
R
2
→
R
f : \mathbb{R}^2 \to \mathbb{R}
f:R2→R,其中
m
m
m 是条件属性数。
6.3 函数的值域
函数值不一定是单个的实数、整数,还可以为一个向量。从集合的角度,笛卡尔积是集合,可以作为值域。
f
:
R
2
→
R
2
f: \mathbb{R}^2 \to \mathbb{R}^2
f:R2→R2,如
f
(
x
,
y
)
=
(
x
+
y
,
x
−
y
)
f(x,y) = (x+y,x-y)
f(x,y)=(x+y,x−y);
可以将这个函数拆看,分别定义:
-
f
1
(
x
,
y
)
=
x
+
y
f_1(x,y) = x+y
f1(x,y)=x+y 和
f
2
(
x
,
y
)
=
x
−
y
f_2(x,y) = x-y
f2(x,y)=x−y
易知:如果 f 1 f_1 f1 或 f 2 f_2 f2 中的任何一个不成立(多解性),则 f f f 不成立; - 在多标签学习中,就是学习: f : R m → { − 1 , + 1 } L \mathbf{f}: \mathbb{R}^m \to \{-1,+1\}^{L} f:Rm→{−1,+1}L;
- 在多标签分布学习中,就是学习: f : R m → [ 0 , 1 ] L \mathbf{f}:\mathbb{R}^{m} \to [0,1]^L f:Rm→[0,1]L,其中 m m m 是条件属性数, L L L 为标签数;
6.4 名词型数据集的拟合函数
决策树数据集
给定一组属性及其相应的取值范围,如 outlook (
V
1
\mathbf{V}_1
V1 = {sunny, rainy, overcast}), temperature (
V
2
\mathbf{V}_2
V2 = {hot, mild, cool}), humidity (
V
3
\mathbf{V}_3
V3 = {high, low, normal}), windy (
V
4
\mathbf{V}_4
V4 = {mild,strong}), play (
V
\mathbf{V}
V_d$ = {yes, no}),则需要学习的函数为:
f
:
V
1
×
V
2
×
V
3
×
V
4
→
V
d
f:\mathbf{V}_1 \times \mathbf{V}_2 \times \mathbf{V}_3 \times \mathbf{V}_4 \to \mathbf{V}_d
f:V1×V2×V3×V4→Vd
6.5 作业
举例你对函数的认识
- 函数描述了两个集合之间的一种特殊关系。具体来说,函数是从一个集合(称为定义域)到另一个集合(称为值域)的映射,其中每个定义域中的元素都唯一对应值域中的一个元素。
- 函数在机器学习中应用广泛,它们使得算法能够学习和表示复杂的模式和关系,可以用来表示模型的假设、损失函数、激活函数等,从而实现准确的预测和分类等。
七、向量/矩阵的范数
向量可以看作是 1 × n 1 \times n 1×n 矩阵,但是从数学的角度上看,其范数的意义不同,所以不可以将向量范数直接扩充用于矩阵范数。
7.1 向量的 l p \mathbf{l}_{\mathbf{p}} lp范数
给定向量
x
=
[
x
1
,
…
,
x
n
]
\mathbf{x} = [\mathbf{x}_1,\dots,\mathbf{x}_n]
x=[x1,…,xn]
∥
x
∥
p
=
(
∑
i
=
1
n
∣
x
∣
p
)
1
p
(1)
\Vert \mathbf{x} \Vert_p = \left( \sum_{i=1}^{n} \vert x \vert^{p} \right)^{\frac{1}{p}} \tag{1}
∥x∥p=(i=1∑n∣x∣p)p1(1)
源码为:\Vert \mathbf{x} \Vert_p = \left( \sum_{i=1}^{n} \vert x \vert^{p} \right)^{\frac{1}{p}} \tag{1};
若在Latex环境下,应该把 \Vert 换为 |;
7.1.1 l 0 \mathbf{l}_{0} l0 范数
∥
x
∥
0
=
∣
{
1
≤
i
≤
n
∣
x
i
≠
0
}
∣
(2)
\Vert \mathbf{x} \Vert_0 = \vert \{ 1 \le i \le n \vert x_i \ne 0 \} \vert \tag{2}
∥x∥0=∣{1≤i≤n∣xi=0}∣(2)
源码为:\Vert \mathbf{x} \Vert_0 = \vert { 1 \le i \le n \vert x_i \ne 0 } \vert \tag{2};
语义:非零项个数;
7.1.2 l 1 \mathbf{l}_{1} l1 范数
当
p
=
1
\mathbf{p}=1
p=1时:
∥
x
∥
1
=
∑
i
=
1
n
∣
x
i
∣
(3)
\Vert \mathbf{x} \Vert_1 = \sum^{n}_{i=1} \vert x_i \vert \tag{3}
∥x∥1=i=1∑n∣xi∣(3)
源码为:\Vert \mathbf{x} \Vert_1 = \sum^{n}_{i=1} \vert x_i \vert \tag{3};
语义:绝对值之和,常用于计算绝对误差;
7.1.3 l 2 \mathbf{l}_{2} l2 范数
∥
x
∥
2
=
∑
i
=
1
n
x
i
2
(4)
\Vert \mathbf{x} \Vert_2 = \sqrt { \sum_{i=1}^{n} x_{i}^{2} \tag{4}}
∥x∥2=i=1∑nxi2(4)
源码为:Vert \mathbf{x} \Vert_2 = \sqrt { \sum_{i=1}^{n} x_{i}^{2} \tag{4}};
∥
x
∥
2
2
=
∑
i
=
1
n
x
i
2
(5)
\Vert \mathbf{x} \Vert_2^2 = \sum_{i=1}^{n} x_{i}^{2} \tag{5}
∥x∥22=i=1∑nxi2(5)
源码为:\Vert \mathbf{x} \Vert_2^2 = \sum_{i=1}^{n} x_{i}^{2} \tag{5};
语义为:平方和,常用于计算平方误差;
7.1.4 l ∞ \mathbf{l}_{\infty} l∞ 范数
∥
x
∥
∞
=
max
1
≤
i
≤
n
∣
x
i
∣
(6)
\Vert \mathbf{x} \Vert_{\infty} = { \max_{1 \le i \le n} \vert x_{i} \vert \tag{6}}
∥x∥∞=1≤i≤nmax∣xi∣(6)
源码为:\Vert \mathbf{x} \Vert_{\infty} = { \max_{1 \le i \le n} \vert x_{i} \vert \tag{6}};
其中,infty是infinity的缩写;
语义:绝对值中的最大值;
7.2 矩阵的范数
给定矩阵 X = [ x i j ] n × m \mathbf{X}=[x_{ij}]_{n \times m} X=[xij]n×m;
7.2.1 Fro范数
∥
X
∥
F
=
∑
i
,
j
x
i
j
2
(7)
\Vert \mathbf{X} \Vert_{\mathbf{F}} = \sqrt { \sum_{i,j} x_{ij}^{2} \tag{7}}
∥X∥F=i,j∑xij2(7)
源码为:\Vert \mathbf{X} \Vert_{\mathbf{F}} = \sqrt { \sum_{i,j} x_{ij}^{2} \tag{7}};
经常取其平方,即:
∥
X
∥
F
2
=
∑
i
,
j
x
i
j
2
(8)
\Vert \mathbf{X} \Vert_{\mathbf{F}}^{2} = \sum_{i,j} x_{ij}^{2} \tag{8}
∥X∥F2=i,j∑xij2(8)
源码为:\Vert \mathbf{X} \Vert_{\mathbf{F}}^{2} = \sum_{i,j} x_{ij}^{2} \tag{8};
这里有直接将向量
l
2
\mathbf{l}_2
l2 范数进行扩充的意思;
注意:这里忽略了
i
,
j
i,j
i,j的取值范围,就表示用最大可能的范围;
7.2.2 l 2 , 1 \mathbf{l}_{2,1} l2,1 范数
对每个行向量求
l
2
\mathbf{l}_2
l2 范数,获得一个列向量,再对该列向量取
l
1
\mathbf{l}_1
l1 范数;
∥
X
∥
2
,
1
=
∑
i
∑
j
x
i
j
2
(9)
\Vert \mathbf{X} \Vert_{2,1} = \sum_{i} \sqrt { \sum_{j} x_{ij}^{2} \tag{9}}
∥X∥2,1=i∑j∑xij2(9)
注意:
- 这里使用向量范数定义矩阵范数,而不是直接扩充到矩阵;
-
∥
X
∥
F
2
\Vert \mathbf{X} \Vert_{\mathbf{F}}^{2}
∥X∥F2 相当于先求行向量的
l
2
\mathbf{l}_2
l2 范数平方,再求列向量的
l
1
\mathbf{l}_1
l1 范数,即:
∥ X ∥ F 2 = ∑ i ∥ X ∥ 2 2 (10) \Vert \mathbf{X} \Vert_{\mathbf{F}}^{2} = \sum_{i} \Vert \mathbf{X} \Vert_{2}^{2} \tag{10} ∥X∥F2=i∑∥X∥22(10)
源码为:\Vert \mathbf{X} \Vert_{\mathbf{F}}^{2} = \sum_{i} \Vert \mathbf{X} \Vert_{2}^{2} \tag{10};
7.2.3 实际应用
线性模型经常使用系数矩阵
W
\mathbf{W}
W 的
l
2
,
1
\mathbf{l}_{2,1}
l2,1 范数作为正则项:
min
W
∥
X
W
−
Y
∥
F
2
+
λ
∥
W
∥
2
,
1
(11)
\min_{\mathbf{W}} \Vert \mathbf{X}\mathbf{W} - \mathbf{Y} \Vert_{\mathbf{F}}^{2} + \lambda \Vert \mathbf{W} \Vert_{2,1} \tag{11}
Wmin∥XW−Y∥F2+λ∥W∥2,1(11)
源码为:\min_{\mathbf{W}} \Vert \mathbf{X}\mathbf{W} - \mathbf{Y} \Vert_{\mathbf{F}}^{2} + \lambda \Vert \mathbf{W} \Vert_{2,1} \tag{11};
7.3 作业
- 自己给定一个向量、一个矩阵并计算其各种范数;
假设向量:
X
=
(
3
,
0
,
2
)
\mathbf{X} = ( 3,0,2 )
X=(3,0,2)
则:
- ∥ X ∥ 0 = ∣ { 1 ≤ i ≤ n ∣ x i ≠ 0 } ∣ = 2 \Vert \mathbf{X} \Vert_0 = \vert \{ 1 \le i \le n \vert x_i \ne 0 \} \vert = 2 ∥X∥0=∣{1≤i≤n∣xi=0}∣=2
- ∥ X ∥ 1 = ∑ i = 1 n ∣ x i ∣ = 3 + 2 = 5 \Vert \mathbf{X} \Vert_1 = \sum^{n}_{i=1} \vert x_i \vert = 3+2 =5 ∥X∥1=∑i=1n∣xi∣=3+2=5
- ∥ X ∥ 2 = ∑ i = 1 n x i 2 = 9 + 4 = 13 \Vert \mathbf{X} \Vert_2 = \sqrt { \sum_{i=1}^{n} x_{i}^{2}} = \sqrt{9+4} =\sqrt{13} ∥X∥2=∑i=1nxi2=9+4=13
- ∥ X ∥ ∞ = max 1 ≤ i ≤ n ∣ x i ∣ = 3 \Vert \mathbf{X} \Vert_{\infty} = { \max_{1 \le i \le n} \vert x_{i} \vert } = 3 ∥X∥∞=max1≤i≤n∣xi∣=3
假设矩阵:
A
=
[
1
4
2
0
1
5
2
3
6
]
\mathbf{A} = \left[\begin{matrix} 1&4&2 \\ 0&1&5 \\ 2&3&6 \end{matrix} \right]
A=
102413256
则:
- ∥ A ∥ F = ∑ i , j a i j 2 = 1 + 16 + 4 + 0 + 1 + 25 + 4 + 9 + 36 = 96 = 4 6 \Vert \mathbf{A} \Vert_{\mathbf{F}} = \sqrt{ \sum_{i,j} \mathbf{a}_{ij}^{2}} = \sqrt{1+16+4+0+1+25+4+9+36}=\sqrt{96}=4\sqrt{6} ∥A∥F=∑i,jaij2=1+16+4+0+1+25+4+9+36=96=46
- ∥ A ∥ 2 , 1 = ∑ i ∑ j a i j 2 = 7 + 21 + 26 \Vert \mathbf{A} \Vert_{2,1} = \sum_{i} \sqrt { \sum_{j} \mathbf{a}_{ij}^{2}} = 7 + \sqrt{21} + \sqrt{26} ∥A∥2,1=∑i∑jaij2=7+21+26
Latex特殊符号
符号 | 命令 | 符号 | 命令 |
---|---|---|---|
$ | \ $ | % \% % | \ % |
{ \{ { | \ { | _ \_ _ | \ _ |
# \# # | \ # | & \& & | \ & |
ˆ \^{} ˆ | \ ^{} | ˜ \~{} ˜ | \ ~{} |
\ \backslash \ | \ backslash |