数学概念
欧式距离
所谓欧式距离中的“欧”指的是被称作几何之父的古希腊数学家欧几里得。欧式距离是在其巨著中《几何原本》中提到的一个非常重要的概念。
定义:在一个 N N N 维度的空间里,求两个点的距离,这个距离肯定是一个大于等于 0 0 0 的数字(也就是说没有负距离,最小也就是两个点重合的零距离),那么这个距离需要用两个点在各自维度上的坐标相减,平方后加和再开平方。
即一维、二维、三维到 N N N 维的欧式距离计算方法为:
d 1 = ( x 1 − x 2 ) 2 d_1 = \sqrt{(x_1-x_2)^2} d1=(x1−x2)2
d 2 = ( x 1 − x 2 ) 2 + ( y 1 − y 2 ) 2 d_2 = \sqrt{(x_1-x_2)^2 + (y_1-y_2)^2} d2=(x1−x2)2+(y1−y2)2
d 2 = ( x 1 − x 2 ) 2 + ( y 1 − y 2 ) 2 + ( z 1 − z 2 ) 2 d_2 = \sqrt{(x_1-x_2)^2 + (y_1-y_2)^2 + (z_1-z_2)^2} d2=(x1−x2)2+(y1−y2)2+(z1−z2)2
d n = ( x 1 − x 2 ) 2 + ( y 1 − y 2 ) 2 + ⋯ + ( n 1 − n 2 ) 2 d_n = \sqrt{(x_1-x_2)^2 + (y_1-y_2)^2 + \cdots + (n_1-n_2)^2} dn=(x1−x2)2+(y1−y2)2+⋯+(n1−n2)2
哈曼顿距离
欧式距离是人们在解析几何里最常用的一种计算方式,但是计算起来比较复杂。
哈曼顿距离也叫做出租车距离,用来标明两个点在标准坐标系上的绝对轴距总和。
欧式距离与哈曼顿距离进行对比:
d = ( x 1 − x 2 ) 2 + ( y 1 − y 2 ) 2 d = \sqrt{(x_1-x_2)^2 + (y_1-y_2)^2} d=(x1−x2)2+(y1−y2)2
d = ∣ x 1 − x 2 ∣ + ∣ y 1 − y 2 ∣ d = \left|x_1-x_2\right| + \left|y_1-y_2\right| d=∣x1−x2∣+∣y1−y2∣
即N维的哈曼顿距离为
d = ∣ x 1 − x 2 ∣ + ∣ y 1 − y 2 ∣ + ⋯ + ∣ n 1 − n 2 ∣ d = \left|x_1-x_2\right| + \left|y_1-y_2\right| + \cdots + \left|n_1-n_2\right| d=∣x1−x2∣+∣y1−y2∣+⋯+∣n1−n2∣
高斯分布
正态分布(Normal Distribution)又名高斯分布(Gaussian Distribution),是一个在数学、物理及工程等领域都非常重要的概率分布,在统计学的许多方面有着重大的影响力。
高斯分布的概率密度函数:
f ( x ) = 1 2 π σ e x p ( − ( x − μ ) 2 2 σ 2 ) f(x) = \displaystyle\frac{1}{\sqrt{2\pi}\sigma}exp\left(-\frac{(x-\mu)^2}{2\sigma^2}\right) f(x)=2πσ1exp(−2σ2(x−μ)2)
泊松分布
泊松(Possion)分布是一种统计与概率学中常见的离散概率分布,泊松分布是概率论中最重要的概念之一。
泊松分布的概率函数如下:
P ( X = k ) = λ k k ! e − λ P(X = k) = \displaystyle\frac{\lambda^k}{k!}e^{-\lambda} P(X=k)=k!λke−λ , k = 0 , 1 , 2 , 3 , ⋯ k=0,1,2,3,\cdots k=0,1,2,3,⋯
泊松分布的参数 λ \lambda λ 是单位时间(或单位面积)内随机事件的平均发生率。泊松分布适合于描述单位时间内随机事件发生的次数。其中 k ! k! k! 是指 k k k 的阶乘, k k k 取非负整数。
认识:在一个标准的时间里,发生这件事的发生率是 λ \lambda λ 次(注意,这是一个具体的次数,不是一个概率值),那发生 k k k 次的概率是多少。
泊松分布适用的事件需要满足以下3个条件:
1、这个事件是一个小概率事件。
2、事件的每次发生是独立的不会相互影响。
3、事件的概率是稳定的。
伯努利分布
伯努利分布(Bernoulli Distribution)是一种离散分布,在概率学中非常有用,有两种可能的结果, 1 1 1 表示成功,出现的概率为 p p p ,(其中 0 < p < 1 0<p<1 0<p<1 ) ; 0 0 0 表示失败,出现的概率为 q = 1 − p q=1-p q=1−p 。
伯努利分布的分布律如下:
P n = { p n = 1 1 − p n = 0 P_n = \begin{cases} p & n=1 \\\\ 1-p & n=0 \end{cases} Pn=⎩⎪⎨⎪⎧p1−pn=1n=0
看上去像个分段函数,其实也可以写作:
P ( n ) = p n ( 1 − p ) 1 − n P(n)=p^n(1-p)^{1-n} P(n)=pn(1−p)1−n
伯努利分布的应用需满足以下条件:
1、各次试验中的事件是相互独立的,每一次 n = 1 n=1 n=1 和 n = 0 n=0 n=0 的概率分别为 p p p 和 q q q 。
2、每次试验都只有两种结果,即 n = 0 n=0 n=0 或 n = 1 n=1 n=1 。
满足伯努利分布的样本有一个非常重要的性质,即满足下面公式:
P ( X = k ) = C n k ⋅ p k ( 1 − p ) n − k P(X=k) = C^k_n \cdot p^k(1-p)^{n-k} P(X=k)=Cnk⋅pk(1−p)n−k
公式含义
其中, X X X 指的是试验的次数, C n k C^k_n Cnk 指的是组合,也就是 n ! k ! ( n − k ) ! \displaystyle\frac{n!}{k!(n-k)!} k!(n−k)!n! , p k ( 1 − p ) n − k p^k(1-p)^{n-k} pk(1−p)n−k 就是 p p p 的 n n n 次幂与 ( 1 − p ) (1-p) (1−p) 的 n − k n-k n−k 次幂的乘积。
这个公式表示,如果一个试验满足 P ( n ) = p n ( 1 − p ) 1 − n P(n)=p^n(1-p)^{1-n} P(n)=pn(1−p)1−n 的伯努利分布,那么在连续试验 n n n 次的情况下,出现 n = 1 n=1 n=1 的情况发生恰好 k k k 次的概率为 C n k ⋅ p k ( 1 − p ) n − k C^k_n \cdot p^k(1-p)^{n-k} Cnk⋅pk(1−p)n−k 。 n = 1 n=1 n=1 就是对应概率为 p p p 的情况。
方法
回归
回归(Regression)简单来说是“由果索因”的过程,是一种归纳的思想————当看到大量的事实所呈现的样态,推断出原因是如何的;当看到大量的数字对 (pair) 是某种样态,推断出它们之间蕴含的关系是如何的。
线性回归
线性回归是利用数理统计学中的回归分析来确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。其表达形式如下:
y = a x + b + e y=ax+b+e y=ax+b+e
e e e 为误差服从均值为 0 0 0 的正态分布。
残差分析
假设有多个 x x x 和 y y y 的样本值,同时尝试用 y = a x + b + e y=ax+b+e y=ax+b+e 来拟合,可以得到
∣ e ∣ = ∣ a x + b − y ∣ |e|=|ax+b-y| ∣e∣=∣ax+b−y∣
也就是说误差大小其实是猜想的 a x + b ax+b ax+b 的值和观测到的 y y y 值之间的差值。试着把所有的 ∣ e ∣ |e| ∣e∣ 都求和。构造一个函数:
Q = ∑ i = 1 n ( a x i + b − y i ) 2 Q=\displaystyle\sum^{n}_{i=1}\left(ax_i+b-y_i\right)^2 Q=i=1∑n(axi+b−yi)2
Q Q Q 指根据每一组样本里的 x x x 拟合得到的 y y y (也就是 a x + b ax+b ax+b )和观察到的样本里的 y y y 都做一个差,把差平方后求和。 Q Q Q 就是每一个 ∣ e ∣ 2 |e|^2 ∣e∣2 的和,现在的问题转化为让 a a a 和 b b b 分别等于什么值时 Q Q Q 最小(也就是所有的 ∣ e ∣ |e| ∣e∣ 的加和最小)。即
∂ Q ∂ a = 0 \displaystyle\frac{\partial Q}{\partial a}=0 ∂a∂Q=0 且 ∂ Q ∂ b = 0 \displaystyle\frac{\partial Q}{\partial b}=0 ∂b∂Q=0
这两个表达式的数学含义是, Q Q Q 是一个 a a a 和 b b b 作为自变量的二元函数, Q Q Q 分别对 a a a 和 b b b 求偏导数,满足每个偏微分方程为 0 0 0 的 a a a 、 b b b 变量的值就是要找的值。
分别求导后:
∂ Q ∂ a = 2 ∑ i = 1 n [ x i ( a x i + b − y i ) ] = 0 \displaystyle\frac{\partial Q}{\partial a} = 2 \sum^{n}_{i=1}\left[x_i\left(ax_i+b-y_i\right)\right]=0 ∂a∂Q=2i=1∑n[xi(axi+b−yi)]=0
∂ Q ∂ b = 2 ∑ i = 1 n ( a x i + b − y i ) = 0 \displaystyle\frac{\partial Q}{\partial b} = 2 \sum^{n}_{i=1}\left(ax_i+b-y_i\right)=0 ∂b∂Q=2i=1∑n(axi+b−yi)=0
将上述两个式子展开,把 a a a 和 b b b 作为系数提出来之后的结果为,得到方程组:
a ∑ i = 1 n x i 2 + b ∑ i = 1 n x i = ∑ i = 1 n y i x i a \displaystyle\sum^{n}_{i=1} x^2_i + b \sum^{n}_{i=1} x_i = \sum^{n}_{i=1} y_ix_i ai=1∑nxi2+bi=1∑nxi=i=1∑nyixi
a ∑ i = 1 n x i + N b = ∑ i = 1 n y i a\displaystyle\sum^{n}_{i=1}x_i + Nb = \sum^{n}_{i=1}y_i ai=1∑nxi+Nb=i=1∑nyi
把 (2) 式做如下处理:
( 2 ) ⋅ ∑ i = 1 n x i N − ( 1 ) (2)\cdot \displaystyle\frac{\displaystyle\sum^{n}_{i=1}x_i}{N}-(1) (2)⋅Ni=1∑nxi−(1)
得到下面的等式:
a ( ∑ i = 1 n x i ⋅ ∑ i = 1 n x i n − ∑ i = 1 n x i 2 ) = ∑ i = 1 n y i ⋅ ∑ i = 1 n x i n − ∑ i = 1 n y i x i a\left(\displaystyle\sum^{n}_{i=1}x_i \cdot \frac{\displaystyle\sum^{n}_{i=1}x_i}{n} - \sum^{n}_{i=1}x_i^2 \right) = \displaystyle\sum^{n}_{i=1}y_i \cdot \frac{\displaystyle\sum^{n}_{i=1}x_i}{n} - \sum^{n}_{i=1}y_ix_i a⎝⎜⎜⎜⎜⎛i=1∑nxi⋅ni=1∑nxi−i=1∑nxi2⎠⎟⎟⎟⎟⎞=i=1∑nyi⋅ni=1∑nxi−i=1∑nyixi
把 a a a 和 b b b 各自的表达式推导出来:
a = ∑ i = 1 n y i ⋅ ∑ i = 1 n x i n − ∑ i = 1 n y i x i ∑ i = 1 n x i ⋅ ∑ i = 1 n x i n − ∑ i = 1 n x i 2 a = \displaystyle\frac{\frac{ \displaystyle\sum^{n}_{i=1}y_i \cdot \sum^{n}_{i=1}x_i }{n} - \displaystyle\sum^{n}_{i=1}y_ix_i}{ \displaystyle\frac{\displaystyle\sum^{n}_{i=1}x_i \cdot \sum^{n}_{i=1}x_i}{n} - \sum^{n}_{i=1}x_i^2 } a=ni=1∑nxi⋅i=1∑nxi−i=1∑nxi2ni=1∑nyi⋅i=1∑nxi−i=1∑nyixi
b = ∑ i = 1 n y i − a ∑ i = 1 n x i n b = \displaystyle\frac{\displaystyle\sum^{n}_{i=1}y_i - a \sum^{n}_{i=1}x_i}{n} b=ni=1∑nyi−ai=1∑nxi
分类
分类器合理与否的判断指标
- 召回率:检索出的相关样本和样本库(待测样本库)中所有的相关样本的比率,衡量的是分类器的查全率。
- 精确率:检索出的相关样本数与检索出的样本总数的比率,衡量的是分类器的查准率。
分类的训练过程
- 输入样本和分类标签
- 建立映射假说的某个 y = f ( x ) y = f(x) y=f(x) 的模型
- 求解出全局的损失函数 L o s s Loss Loss 和待定系数 w w w 的映射关系, L o s s = g ( w ) Loss = g(w) Loss=g(w)
- 通过迭代优化逐步降低 L o s s Loss Loss,最终找到一个 w w w 能使召回率和精确率满足当前场景需要。ps:这里尤其指在验证数据集上的表现。