数据科学与工程理论基础复习提纲

我不想头秃阿

已于 2023-02-22 19:41:14 修改

阅读量1.1k

点赞数 2

分类专栏：数据科学与工程算法基础文章标签：算法

于 2022-12-24 17:52:04 首次发布

本文链接：https://blog.csdn.net/cacique111/article/details/128430069

版权

数据科学与工程算法基础专栏收录该内容

2 篇文章 2 订阅

订阅专栏

一、Sketch

1.1 简单抽样算法

1.1.1 核心思想

对于到达的元素 $a_i$ ，以概率 $p = M / m$ 对该元素的频数加1。

$M$ ：抽样后的数据流大小
$m$ ：原始数据流大小

1.1.2 操作

更新：当元素 $a_i$ 到达时，以 $p$ 的概率更新 $c_i$ 的值；以 $1 - p$ 的概率保持 $c_i$ 的值不变；
估计元素频数：返回元素频数数组，其中每个元素的频数为 $\hat{f_i}=c_i/p$ ；

1.1.3 性能

空间需求： $M=O(\frac{mlog(\frac{1}{\delta})}{\epsilon^2})$ ，所需空间与数据流大小有关

在这里插入图片描述

1.2 Basic Count Sketch算法

1.2.1 核心思想

维护一个计数数组 $C$ 和两个哈希函数 $h(\cdot)、g(\cdot)$

$h(\cdot)$ ：将 $n$ 个元素均匀映射到 $k$ 个位置
$g(\cdot)$ ：将 $n$ 个元素映射为 $- 1$ 和 $+ 1$

1.2.2 特点

期望 $E(\hat{f_a})=f_a$ ，即输出结果为 $f_a$ 的无偏估计；
方差 $Var(\hat{f_a})=\frac{||f_{-a}||^2_2}{k}$ ，随着 $k$ 值增大，即存储计数数组的空间增大，方差将随之减小；

1.2.3 性能

空间需求： $k=O(\frac{1}{\epsilon^2\delta})$ ，与数据流大小无关

在这里插入图片描述

1.3 Count Sketch算法

1.3.1 核心思想

在Count Sketch基础上，将哈希函数个数增加到 $t$ 个，将每个元素都映射到 $t$ 个位置上，再区 $t$ 个位置上频数估计的中位数。

在这里插入图片描述

1.4 Count-Min Sketch算法

1.4.1 核心思想

维护一个宽度为 $w$ 、深度为 $d$ 的计数器数组；
另有 $d$ 个哈希函数；

1.4.2 特点

放弃了频数的无偏估计(Count Sketch)；
获得了更为高效的频数估计；
$E[X_i]=\frac{||f_{-a}||_1}{k}$
$P[\hat{f_a}-f_a\geq\epsilon||f_{-a}||_1]=P[min\{X_1,...X_d\}\geq\epsilon||f_{-a}||_1]=\prod^d_{i=1}P[X_i\geq\epsilon||f_{-a}||_1]\leq\frac{1}{(k\epsilon)^d}$

1.4.3 性能

计数器个数 $M=O(\frac{log(\frac{1}{\delta})}{\epsilon})$

在这里插入图片描述

二、整数规划

2.1 整数规划

2.1.1 0-1变量

2.1.1.1 概念

很多问题中，决策变量取值只能为1或0。与 $x_i\in\{0,1\}$ 等价的说法有 $0\leq x_i\leq1$ 且 $x_i\in\mathbf{Z}$ 。

2.1.1.2 利用0-1变量表示互相排斥的约束条件

例1：假设两个约束通过逻辑或运算进行了组合
$x\leq2 或 x\geq6$
引入0-1变量 $w$ ：
$w=\left\{ \begin{aligned} 1,\quad x\leq2 \\ 0,\quad x\geq6 \end{aligned} \right.$
和一个足够大的整数 $M$ 可以将约束条件改写成：
$x\leq2+M(1-w)\\ x\geq6-Mw\\ w\in\{0,1\}$
例2：假设两个约束条件通过逻辑或运算进行了组合
$x_1+2x_2\geq12 或 4x_1-10x_3\leq1$
引入0-1变量 $w$ ：
$w=\left\{ \begin{aligned} 1,\quad x_1+2x_2\geq12 \\ 0,\quad 4x_1-10x_3\leq1 \end{aligned} \right.$
可以改写成:
$x_1+2x_2\geq12-M(1-w)\\ 4x_1-10x_3\leq1+Mw\\ w\in\{0,1\}$

2.1.2 松弛线性规划

2.1.2.1 概念

将去掉整数约束的整数规划问题成为整数规划的松弛线性规划

2.1.2.2 例题

整数规划问题：
$IP(1)\\ max\quad 10x_1+4x_2+9x_3\\ 5x_1+4x_2+3x_3\leq9\\ 0\leq x_i\leq1,x_i\in\mathbf{Z},1\leq i\leq3$
该整数规划的松弛线性规划为：
$IP(1)\\ max\quad 10x_1+4x_2+9x_3\\ 5x_1+4x_2+3x_3\leq9\\ 0\leq x_i\leq1,1\leq i\leq3$

2.2 单纯形算法

单纯形算法是求解线性规划的经典方法。它的执行时间在最坏情况下不是多项式的，但是在实际中此算法通常相当快速。

2.2.1 主要思想

每轮迭代都关联一个“基本解”，容易从松弛型中计算得到。
每轮迭代把一个松弛型转换成一个等价的松弛型。
最终，指导一个最优解变得“明显”

2.3 分支定界算法

2.3.1 枚举树

2.3.1.1 概念

枚举树是以树状结构将可行域不断进行划分并一一列举出来的数据结构。

在这里插入图片描述

2.3.2 分支定界算法

2.3.2.1 剪枝规则

分支定界算法是为了对上述的枚举树进行剪枝，剪枝规则如下：

若已找到某个节点的最优解，删除其所有子孙节点；
若已知枚举树中某个节点的最优解，而当前节点的松弛线性规划问题的最优解都比这个解要小，则删除当前节点及其子孙节点；
若当前节点对应的松弛线性规划问题没有可行解，删除当前节点及其子孙节点。

2.3.2.2 算法

在这里插入图片描述

三、集合覆盖

3.1 问题定义

3.1.1 覆盖

设 $A$ 是非空集合， $C$ 是集合 $A$ 的非空子集组成的集合，即 $C=\{A_\alpha|A_\alpha\subset A,A_\alpha\neq\empty\}$ ， $C$ 是集合 $A$ 的覆盖，若 $C$ 满足
$\cup_{A_\alpha\in C}A_\alpha=A$

3.1.2 最小全覆盖问题

令 $U$ 为一有限集， $S=\{s_1,s_2,...,s_n\}$ 为由 $U$ 的 $n$ 个子集构成的集族，全覆盖问题是找到 $S$ 最小的自己覆盖集合 $U$ 。

3.1.3 最大子覆盖问题

令 $U$ 为一有限集， $S=\{s_1,s_2,...,s_n\}$ 为由 $U$ 的 $n$ 个子集构成的集族，给定正整数 $k$ ，最大子覆盖问题是从 $S$ 中找到 $k$ 个子集，使得这 $k$ 个子集覆盖集合 $U$ 中最多的元素。

3.2 爬山算法

3.2.1 概念

爬山算法（hill-climbing algorithm）是一个解决子模优化问题的局部搜索算法。算法12.1是爬山算法的一个实例，它解决了最大子覆盖问题。

在这里插入图片描述

四、模块度及社区发现

4.1 模块度

4.1.1 概念

社区划分的好坏与划分后的社区内部顶点及社区之间顶点的连接程度紧密相关，划分越好的社区中各社区内部顶点之间连接得也越紧密，而社区之间连接得越稀疏。模块度正是基于这样的一个观测而定义的。

4.1.2 无向图的模块度定义

4.1.2.1 表达式

无向图的模块度可以计算为:
$Q=\frac{1}{2m}\sum_{i,j}(A_{ij}-\frac{k_ik_j}{2m})\delta(C_i,C_j)$

$n$ ：顶点个数
$m$ ：边数
$A$ ：邻接矩阵
$k_i$ ：顶点 $v_i$ 的度
$\delta(C_i,C_j)=\left\{ \begin{aligned} 1,如果v_i和v_j属于同一个社区\\ 0,&否则 \end{aligned} \right.$

4.1.2.2 例题

在这里插入图片描述

解：由图可知， $m=8,k_1=2,k_2=2,k_3=3,k_4=3,k_5=2,k_6=2,k_7=2$ 。
$Q=\frac{1}{16}[(A_{11}-\frac{k_1k_1}{16})+2(A_{12}-\frac{k_1k_2}{16})+2(A_{13}-\frac{k_1k_3}{16})\\ +(A_{22}-\frac{k_2k_2}{16})+2(A_{23}-\frac{k_2k_3}{16})+\\ (A_{33}-\frac{k_3k_3}{16})\\ +(A_{44}-\frac{k_4k_4}{16})+2(A_{45}-\frac{k_4k_5}{16})+2(A_{46}-\frac{k_4k_6}{16})+2(A_{47}-\frac{k_4k_7}{16})\\ +(A_{55}-\frac{k_5k_5}{16})+2(A_{56}-\frac{k_5k_6}{16})+2(A_{57}-\frac{k_5k_7}{16})\\ +(A_{66}-\frac{k_6k_6}{16})+2(A_{67}-\frac{k_6k_7}{16})\\ +(A_{77}-\frac{k_7k_7}{16}) ]=\frac{47}{128}$

4.1.2.3 另一种模块度表达式

$Q=\frac{1}{2m}\sum_{i,j}(A_{ij}-\frac{k_ik_j}{2m})\delta(C_i,C_j)\\ =\sum_{i,j}(\frac{A_{ij}}{2m}-\frac{k_ik_j}{4m^2})\delta(C_i,C_j)\\ =(\sum_{i,j}\frac{A_{ij}}{2m}-\frac{\sum_ik_i\sum_jk_j}{4m^2})\delta(C_i,C_j)\\ =\sum_{c\in C}[\frac{\sum^c_{in}}{2m}-(\frac{\sum^c_{tot}}{2m})^2]$

$\sum^c_{in}$ ：社区 $c$ 内部有向边的数量；
$\sum^c_{tot}$ ：社区 $c$ 内部所有顶点度的总和；

4.1.2.4 例题

用上述表达式计算上图的模块度：
$Q=[\frac{6}{16}-(\frac{7}{16})^2]+[\frac{8}{16}-(\frac{9}{16})^2]=\frac{47}{128}$

4.1.3 权重无向图的模块度定义

4.1.3.1 表达式

假设 $W$ 为图 $G$ 的权重矩阵，其中
$W_{ij}=\left\{ \begin{aligned} w_{ij},如果A_{ij}=1\\ 0,否则 \end{aligned} \right.$
即图 $G$ 的每条边上赋予了一个权重 $w_{ij}$ 。权重无向图的模块度定义为：
$Q=\frac{1}{2m}\sum_{i,j}(W_{ij}-\frac{k_ik_j}{2m})\delta(C_i,C_j)$

$2m=\sum_{i,j}W_{ij}$
$k_i=\sum_jW_{ij}$

4.1.4 有向图的模块度定义

4.1.4.1 表达式

假设 $A$ 为有向图 $G$ 的邻接矩阵，其中 $m$ 为有向边的数量，定义顶点 $v_i$ 的出度和入度分别为：
$k_{i}^{out}=\sum_jA_{ij}\quad和\quad k^{in}_i=\sum_jA_{ji}$
有向图的模块度定义如下
$Q=\frac{1}{m}\sum_{i,j}(A_{ij}-\frac{k^{out}_ik^{in}_j}{m})\delta(C_i,C_j)$

4.1.5 模块度的矩阵定义

4.1.5.1 表达式

定义一个 $n\times k$ 的矩阵 $S$ ， $S_{ij}=1$ 表示顶点 $v_i$ 属于第 $j$ 个社区， $S_{ij}=0$ 表示顶点 $v_i$ 不属于第 $j$ 个社区，所以
$\delta(C_i,C_j)=\sum_rS_{ir}S_{jr}$
定义实对称矩阵 $B$ ，其元素满足
$B_{ij}=A_{ij}-\frac{k_ik_j}{2m}$
则社区结构模块度可以改写为：
$Q=\frac{1}{2m}\sum_{i,j}(A_{ij}-\frac{k_ik_j}{2m})\delta(C_i,C_j)\\ =\frac{1}{2m}\sum_{i,j}B_{ij}\sum_{r}S_{ir}S_{jr}\\ =\frac{1}{2m}\sum_{i,j}\sum_{r}B_{ij}S_{ir}S_{jr}\\ =\frac{1}{2m}Tr(S^TBS)$
其中 $Tr(S^TBS)$ 为矩阵的迹，即对角元素之和。

4.2 Louvain算法

4.2.1 算法步骤

在这里插入图片描述

4.2.2 表达式

模块度增益 $\Delta Q(v_i\rightarrow B)$ 计算为
$\Delta Q(v_i\rightarrow B)=Q_{B+v_i}-(Q_B+Q_{v_i})=\frac{k_{i,in}^B}{2m}-\frac{\sum^B_{tot}\cdot k_i}{2m^2}$
模块度损失 $\Delta Q(A\rightarrow v_i)$ 计算为
$\Delta Q(A\rightarrow v_i)=\frac{\sum^{A'}_{i,tot}\cdot k_i}{2m^2}-\frac{k^{A'}_{i,in}}{2m}$

五、尾概率不等式及其应用

5.1 尾概率不等式

5.1.1 Markov不等式

$P(X\geq a)\leq\frac{E(X)}{a}$

5.1.2 Chebyshev不等式

$P(|X-E(X)|\geq r)\leq\frac{Var(X)}{r^2}$

5.1.3 Chernoff不等式

$P[x<(1-\delta)\mu]< exp(\frac{-\mu\delta^2}{2})\\ P[x>(1+\delta)\mu]< exp(\frac{-\mu\delta^2}{4})$

5.2 应用

5.2.1 Morris算法

更新操作：以 $\frac{1}{2^x}$ 的概率更新 $X$ 为 $X + 1$ ;
估计计数结果： $C=2^X-1$ ；
只需要用 $log_2log_2n$ 为表示；

5.2.2 Morris+算法

相较于Morris算法，维护n个计数，最后取平均值

5.2.3 Morris+算法

相较于Morris+算法，运行多次Morris+算法，结果从小到大排列，取中位数输出；
只需要进行 $ln(1+\delta)$ 次Morris+算法

六、Hashing

6.1 布隆过滤器Bloom Filter

6.1.1 概念

m位数组，所有位取值均为0；
k个哈希函数，对应位置置1；

6.1.2 误判率

$f=\prod^k_{i=1}P(X_i=1)=(1-e^{-\frac{kn}{m}})^k$

当 $\frac{m}{n}=20,k=7$ 时，误判率最低。

6.1.2.1 降低误判率–哈希函数个数选择

$k=ln2\cdot\frac{m}{n}$

6.1.2.2 降低误判率–位数组大小设置

$m\geq1n2\cdot n\cdot log_2\frac{1}{\epsilon}$

6.2 局部敏感哈希

6.2.1 Jaccard相似度

$Jaccard(A,B)=\frac{|A\cap B|}{|A\cup B|}$

6.2.2 Shingling

假设一篇文档D的内容为" $ab c d ab c f$ "
组成的包为： ${ab,bc,cd,da,ab,bc,cf\}$
组成的集合为: ${ab,bc,cd,da,cf\}$

特征矩阵：

求k-Shingling集合;
利用哈希函数将k-Shingling集合中的元素映射为其对应的桶号；
构建特征矩阵；

6.2.3 最小哈希MinHashing

$h (v)$ :布尔向量v经过随机排列后得到的新向量；
$mh (v)$ : $h (v)$ 中第一个不为0的行号；
最小哈希签名:n个最小哈希值构成的列向量

七、抽样算法

7.1 系统抽样

系统抽样(Systematic Sampling）也称为机械抽样，它是将总体中个体按照某种顺序排列，在规定的范围内随机抽取起始个体，然后按照一套规则确定其他样本个体的一种抽样方法。

N：总体个数
n：样本容量
k：最接近 $\frac{N}{n}$ 的一个整数

7.1.1 直线等距抽样

从前k个个体编号中随机抽取一个编号，然后每隔k个个体编号抽取一个个体编号，直到抽取n个个体编号为止。

在这里插入图片描述

缺陷：当N不能被k整除时，直线等距抽样不再是一种等概率抽样。

7.1.2 圆形等距抽样

将总体排列成首尾相接的圆形，在1～N范围内随机抽取整数r作为起始个体编号，然后每隔间距k抽取一个个体，直到抽取出n个个体为止。

在这里插入图片描述

7.2 分层抽样

分层抽样将总体中个体按照某种特征分为若干互不重叠的部分，每一部分叫做一个分层，在各层中按照层在总体中所占比例进行系统抽样或简单随机抽样。

7.2.1 等额样本法

$n_i=\frac{n}{K}$

7.2.2 按比例分配法

$n_i=n\times\frac{N_i}{N}$

$N_i$ ：各层个体数量

7.2.3 奈曼分配法

该方法抽取各层的样本数量为 $n_i$ ，其值与该层个体数量 $N_i$ 和样本标准差 $S_i$ 之积成正比
$n_i=n\times\frac{N_iS_i}{\sum^K_{j=1}N_jS_j}$

7.2.4 经济分配法

该方法是一种同时考虑变异性和费用的分配方法。假设每层抽样代价为 $C_i$
$n_i=n\times\frac{N_iS_i/C_i}{\sum^K_{j=1}N_jS_j/C_j}$

7.3 水库抽样

水库抽样(Reservoir Sampling)技术在总体容量未知的情况下，仅通过单遍扫描数据集便能生成等概率抽样集合，属于一种均匀抽样技术。

7.3.1 水库抽样算法

7.3.1.1 抽样步骤

首先将数据流中前k条记录保留下来，构建一个大小为k的水库；
对于数据流中的第m条记录(m > k)，以 $\frac{k}{m}$ 的概率决定是否由这条记录替换水库中的一条记录；
循环执行步骤2，直到遍历全部结束；

在这里插入图片描述

7.2.1.2 局限性

当样本数k是一个与总体容量n相关时，如想要从总体中抽取 $\frac{1}{3}$ 的样本，此时应该采用其他的抽样算法。

7.3.2 分布式水库抽样算法

7.3.2.1 抽样步骤

以 $\frac{N_i}{N}$ 的概率选择一个Map；
从第i个Map上随机地将一个子样本移动到最终的样本中；
循环执行步骤1和2，直到获得k个样本为止；

在这里插入图片描述

八、EM算法

8.1 最大似然估计方法

8.1.1 似然函数

8.1.1.1 定义

假设 $X_1,X_2,...,X_n$ 为来自总体概率密度函数或概率分布律 $f(x|\theta)$ 的n个独立同分布的样本，样本的似然函数 $L(\theta|x_1,x_2,...,x_n)$ 定义为n个样本值 $x_1,x_2,...,x_n$ 的函数，即
$L(\theta|x_1,x_2,...,x_n)=f(x_1,x_2,...,x_n|\theta)$
若 $X$ 为离散型随机变量，其概率分布律为
$P(X=x)=P(x|\theta)$
其中 $\theta$ 为未知参数。假设n个样本 $X_1,X_2,...,X_n$ 的取值为 $x_1,x_2,...,x_n$ ，那么观测到这组样本的联合概率分布律为
$P(X_1=x_1,X_2=x_2,...,X_n=x_n|\theta)\\ =\prod^n_{i=1}P(X_i=x_i|\theta)\\ =\prod^n_{i=1}P(x_i|\theta)\\ =L(\theta|x_1,x_2,...,x_n)=L(\theta)$
因此，观测到这组样本的概率随着 $\theta$ 的取值变化而变化，它是 $\theta$ 的函数，记作 $L(\theta)$ 。

8.1.1.2 参数为p的伯努利分布下的似然函数

$X_i$ 只能取0或者1两个值，则观测到样本值 $x_1,x_2,...,x_n$ 的似然函数为
$L(p)=\prod^n_{i=1}P(X=x_i)\\ =\prod^n_{i=1}p^{x_i}(1-p)^{1-x_i}$

8.1.1.3 参数为 $\lambda$ 的泊松分布下的似然函数

$P(X=x)=\frac{\lambda^x}{x!}e^{-\lambda}$

则观测到样本值 $x_1,x_2,...,x_n$ 的似然函数为
$L(\lambda)=\prod^n_{i=1}P(X=x_i)\\ =\prod\frac{\lambda^x_i}{x_i!}e^{-\lambda}$

8.1.1.4 参数为 $\mu$ 和 $\sigma^2$ 的正态分布下的似然函数

$P(X=x)=\frac{1}{\sigma\sqrt{2\pi}}exp[-\frac{(x-\mu)^2}{2\sigma^2}]$

则观测到样本值 $x_1,x_2,...,x_n$ 的似然函数为
$L(\mu,\sigma^2)=\prod^n_{i=1}N(x_i|\mu,\sigma^2)\\ =\prod^n_{i=1}\frac{1}{\sigma\sqrt{2\pi}}exp[-\frac{(x_i-\mu)^2}{2\sigma^2}]$

8.1.2 最大似然估计

在一次随机试验中事件 $A$ 发生，则认为此时的 $P(A|\theta)$ 值应是 $\theta$ 的一切可能取值中使 $P(A|\theta)$ 达到最大的那一个，极大似然估计就是要选取这样的 $\theta$ 值作为参数 $\theta$ 的估计值，即使得观测到一组样本可能性最大的参数 $\theta$ ，记为 $\hat{\theta}$ 。

8.1.2.1 定义

参数 $\theta$ 的最大似然估计 $\hat{\theta}(x_1,x_2,...,x_n)$ 为
$\hat{\theta}(x_1,x_2,...,x_n)=argmax_\theta L(\theta|x_1,x_2,...,x_n)$

8.1.2.2 参数为p的伯努利分布下的最大似然估计

$\hat{p}=\frac{1}{n}\sum^n_{i=1}x_i$

8.1.2.3 参数为 $\lambda$ 的泊松分布下的最大似然估计

$\hat{\lambda}=\frac{1}{n}\sum^n_{i=1}x_i$

8.1.2.4 参数为 $\mu$ 和 $\sigma^2$ 的正态分布下的最大似然估计

$\hat{\mu}=\bar{x}\\ \hat{\sigma^2}=\frac{1}{n}\sum^n_{i=1}(x_i-\bar{x})^2$

8.2 EM算法

期望最大算法(Expectation-Maximization，EM算法)，是一种从不完全数据或有数据丢失的数据集（存在隐含变量〉中求解概率模型参数的最大似然估计方法。它作为一种数据补全算法，在近几十年得到迅速的发展，主要为应对当前各类实际应用中数据量越来越大，而数据质量却越来越低的情况。当样本中存在隐变量或者缺失变量时，直接处理数据比较困难，很难直接估计不同总体中的参数。