【机器学习综合】积累与发现

最新推荐文章于 2019-11-13 22:13:00 发布

dominic_z

最新推荐文章于 2019-11-13 22:13:00 发布

阅读量681

点赞数

分类专栏：机器学习与数据挖掘

本文链接：https://blog.csdn.net/dominic_z/article/details/79727110

版权

机器学习与数据挖掘专栏收录该内容

12 篇文章 0 订阅

订阅专栏

文章目录

机器学习基础(Mechine Learning)
- 模型相关
- 样本处理
特征工程
*增强学习(Reinforcement Learning)*
- *增强学习基础*

机器学习基础(Mechine Learning)

模型相关

机器学习：准确率(Precision)、召回率(Recall)、F值(F-Measure)、ROC曲线、PR曲线
 机器学习之类别不平衡问题 (2) —— ROC和PR曲线
金句：曲线越靠近左上角，意味着越多的正例优先于负例（被判定为正例），模型的整体表现也就越好。可以看到位于随机线上方的点(如图中的A点)被认为好于随机猜测
ROC的特点：不受两类样本数量的比例的影响，两个轴都是两类的召回率相关。
什么时候用什么，主要和需求有关，如果只关注召回情况的话，那就ROC挺好。
PR曲线用了正样本的precision和recall，ROC用的是正负样本的recall，因此ROC不会受到样本类别不均衡的影响。

AUC的计算方法
 多类auc
多类auc就是两两配对，取属于i类与j类的样本，分别将两者作为正样本然后算两个auc取平均值，作为一个A(i,j)，然后对全部的A(i,j)求平均值

偏差方差分解
偏差和方差是用来评估算法在某一问题上的好坏的，而不是用来评估具体哪个模型的好坏。bias讲的是这个算法输出的模型是否有能力拟合当前问题的数据（即使var很大，只要bias很小，也能说明这个算法有能力拟合数据，因为输入一变，模型就变，这恰恰说明了这个算法非常敏感）；var讲的是这个算法输出的模型是否稳定。两方面都会对损失造成影响。
$E((f-\bar{f})(\bar{f}-y_D))=0$ ，你把乘号拆开就能看出来了，并且 $E (f y) = E (f) E (y)$ ，因为独立， $E((\bar{f}-y)(y-y_D))$ 也是同理，乘号拆开，把 $y_D=y+\epsilon$ 带入进去也能看出来。并且相互独立的两个自变量的乘积的期望等于期望的乘积

生成模型与判别模型
生成模型只学分布 $P (X, Y)$ ，判别模型只学边界 $P (Y ∣ X)$

最大熵模型原理小结
最大熵解释：首先需要明确，最大熵模型是一个判别模型，所以它需要学习的是 $P (y ∣ x)$ ；其次，最大熵模型需要满足 $E_{\overline{P}}(f) = E_{P}(f)$ 等式约束，其中 $\begin{cases} 1& {x与y满足某个关系}\\ 0& {否则} \end{cases}$ 举例来讲，如果某个样本 $x_i,y_i)$ 在训练集里出现过，那么这个样本对应的 $f(x_i,y_i)=1$ ；然后， $E_{\overline{P}}(f) = \sum\limits_{x,y}\overline{P}(x,y)f(x,y)$ 这个式子指的是 $f$ 在当前经验联合分布下的期望； $E_{P}(f) = \sum\limits_{x,y}\overline{P}(x)P(y|x)f(x,y)$ 是用学到的 $P (y ∣ x)$ 和经验分布 $\overline{P}(x)$ 的求得的 $f$ 的期望，我们需要这两者相同；最后，最大熵的意义就是，在满足上面的条件的情况下，从所有满足条件的 $P (y ∣ x)$ 找一个可以使得模型的熵最大的 $P (y ∣ x)$ 作为最终的输出模型。
熵的公式为 $\begin{aligned} H(P) = &H(Y|X) \\= &-\sum\limits_{x,y}\overline{P}(x)P(y|x)logP(y|x)=-\sum\limits_{x}\overline{P}(x)\sum\limits_{y}P(y|x)logP(y|x) \end{aligned}$ ，这个式子的实际上就是条件熵，代表的是给定 $x$ 的情况下 $y$ 的不确定性；举例来讲，假如 $x, y$ 分别代表特征和标签， $\overline{P}(x)$ 代表的是某个特征是 $x$ 的样本的出现的概率，后面的求和项是当特征为 $x$ 的时候，当前模型 $P (y ∣ x)$ 的熵，更进一步，如果是两类问题，那么当前模型对于此样本预测为正负样本的概率都是0.5的时候，其熵最大

Instance Based Learning
什么是Grid Search 网格搜索？
贝叶斯优化
输入一个参数 $x_1$ ，获得一个评价指标 $y_1$ ，然后丢进 $D$ 里，然后根据历史的 $x, y$ 选取新的 $x$

正则化为什么能防止过拟合（重点地方标红了）
过拟合的时候，拟合函数的系数往往非常大，为什么？如下图所示，过拟合，就是拟合函数需要顾忌每一个点，最终形成的拟合函数波动很大。在某些很小的区间里，函数值的变化很剧烈。这就意味着函数在某些小区间里的导数值（绝对值）非常大，由于自变量值可大可小，所以只有系数足够大，才能保证导数值很大。
小权重意味着网络的行为不会因为我们随意更改了一些输入而改变太多。这使得它不容易学习到数据中局部噪声。大权重会带来病态模型问题。

『科学计算』L0、L1与L2范数_理解
为啥L1的结果比L2稀疏，从优化和等高线是一个解释方法，另一个解释方法是，L2范数在0附近的梯度下降速度变慢。《百面》里对于等高线为什么一个是圆一个方的解释也很好，把目标函数拉格朗日方程，还原成优化问题就能看出来了。
至于L2对于病态条件的处理（这里的病态条件讲的真好），病态条件可以理解为，系统对输入特别敏感，比如说输入就是训练数据，系统就是那些参数，训练数据变一点点，系统的参数就会有巨大的变化。那如果加了L2范数，就会抑制这种情况的发生，因为L2范数要求了模型的参数尽量不要太大。

L0、L1、L2范数在机器学习中的应用
对于概率的解释很好，实际做的是，假设参数是符合高斯或者拉普拉斯先验分布，然后对其进行最大后验估计，和最大化带L1L2的损失函数一样

样本处理

数据预处理
清理、集成、规约、变换

距离计算方法总结
 训练集、测试集和验证集
 离群点（孤立点、异常值）检测方法
 机器学习 —— 类不平衡问题与SMOTE过采样算法
 数据归一化和两种常用的归一化方法
 再谈机器学习中的归一化方法（Normalization Method）
特征工程中的「归一化」有什么作用？ - 微调的回答 - 知乎
有明确的最大值最小值，或者分布比较稳定的时候，可以用归一化
如果说我们的样本分别是 $x_0=[0,0]，x_1=[0.1,0.01],...,x_9=[0.9,0.09],x_{10}=[1,1]$ ，对每个特征进行归一化，结果是不变的，因为两者最大值最小值相同，但是从数据上来看，两个特征的量纲完全不一样才对，距离来讲，如果一个样本是[0.1,0.1]，另一个样本是[1,1]，在这两维度特征上的距离都是0.9，但从上面的数据分布可以看出，第二个特征上的差距虽然是0.9，但是其实际代表的距离应该远远大于第一个特征上代表的距离0.9
z-score如何解决这个问题呢，就是均值和方差，第二个特征的均值会稍微倾斜，但方差不会很大，标准化后，会把第二维度的特征的分布变得比原来发散一些。
另外z-score有个隐含的优势是，标准化之后两个特征的协方差等于标准化之前两个特征的pearson相关系数，pearson相关系数是可以直接相互比较大小的
特征离散化（分箱）综述

特征工程

特征工程到底是什么？ - 城东的回答 - 知乎
 机器学习中的特征——特征选择的方法以及注意点
 利用K-L变换进行特征提取
K-L变换的变换矩阵可以有很多种（二阶矩阵、协方差矩阵、总类内离散度矩阵等等）。当K-L变换矩阵为协方差矩阵时，等同于PCA。

奇异值分解（SVD）原理
需要知道的是 $A x$ 可以理解为将向量 $x$ 放入一个新的坐标系中，比如 $A=\begin{bmatrix} \frac{\sqrt{2}}{2} & - \frac{\sqrt{2}}{2} \\ \frac{\sqrt{2}}{2} & \frac{\sqrt{2}}{2} \end{bmatrix}=[w_1,w_2],x=[0,1]^T$ ，那么 $A^Tx=[w_1^Tx,w_2^Tx]^T$ 就相当于把 $x$ 放进一个逆时针旋转了45度并且没有进行放缩的新坐标系中（如果不是正交矩阵，那就会有放缩），新坐标系的基向量在原坐标系中的表示分别是 $w_1,w_2$ ，理解起来很简单，高数里学过 $w_1^Tx=|w_1|*|x|*cos(\theta)$ 就是 $x$ 在单位向量 $w_1$ 上的投影长度。

主成分分析（PCA）原理总结
首先讲解如何用 $x$ 得到 $z$ ：假设经过投影变换后没有经过维度降低，且新坐标系的标准正交基为 $W'=[w_1,w_2,...,w_n]$ ，其中 $w_i||_2^2=1,w_i^Tw_j=0$ ，那么向量 $x$ 在该坐标系下的坐标就是 $W')^Tx$ ，然后我们进行维度降低，从 $W^{'}$ 中丢弃几个列向量从而获得 $W=[w_1,w_2,...,w_{n'}]$ ，于是可以得到 $z=W^Tx$ 。举例来讲，如果 $W'=\begin{bmatrix} \frac{\sqrt{2}}{2} & -\frac{\sqrt{2}}{2} \\\frac{\sqrt{2}}{2} & \frac{\sqrt{2}}{2} \end{bmatrix}=[w_1,w_2],x=[0,1]^T$ ，然后抛弃 $w_1$ 获得 $W=[w_2]$ 那么 $z=W^Tx=[\frac{\sqrt{2}}{2}]$ 就相当于把 $x$ 先投影到一个基向量为 $w_1,w_2$ 的新坐标系中（即将坐标系逆时针旋转了45度），然后将 $w_1$ 代表的坐标轴抛弃，就获得了一个降维后的一维坐标向量；
那如何用 $z$ 恢复 $x$ 呢：通过上一步可以看出，从 $W^{'}$ 到 $W$ 我们抛弃了一些基向量，因此恢复 $x$ 的时候一定是有损的，记为 $\bar{x}$ 。直观上看，把新坐标轴反着之前的方法变回去就可以了，换句话说，之前的变换是通过 $W$ 进行的，现在要反过来变回去就需要通过 $W^T$ ，就有 $\bar{x}=(W^T)^Tz=Wz$ 。距离来讲，还是上面的例子，现在 $z=[\frac{\sqrt{2}}{2}]$ ，那么恢复的时候 $\bar{x}=Wz=[\frac{1}{2},\frac{1}{2}]^T$ ，这相当于将一维坐标系坐标系顺时针旋转45度，转回来了。再不理解，你画个图看看。
综上， $\bar{x}=Wz=WW^Tx$
$W^TW=\begin{bmatrix} w_1^T \\ \vdots\\w_{n'} \end{bmatrix} \begin{bmatrix} w_1&\cdots&w_{n'} \end{bmatrix}=I$ 但 $WW^T$ 是什么就不好说了，因为他不是方阵
以下推导中， $z_i,x_i,w_i$ 均为列向量， $Z=[z_1,...,z_m],X=[x_1,...,x_m],W=[w_1,...,w_{n'}]$
基于最小距离的推导太复杂了，还是基于最大方差的简单，每个样本带来的方差是 $(z_i-\mu)^T(z_i-\mu)$ ，由于均值为0，所以就是 $z_i^Tz_i$ 。希望在新的坐标系里方差最小，于是有 $\sum_i z_i^Tz_i$ 最小，推导和下面就一样了。
需要注意的是 $\sum_i z_i^Tz_i$ 等价于先对每一个特征求方差，然后对所有特征的方差求和
$\begin{aligned} \sum_{i=1}^{m}||\overline{x}_i - x_i||_2^2 & = - \sum_{i=1}^{m}z_i^Tz_i + \sum_{i=1}^{m} x_i^Tx_i =tr(\begin{bmatrix} z_1^Tz_1 & \cdots &z_1^Tz_m \\ \vdots &\ddots & \vdots \\ z_m^Tz_1 & \cdots &z_m^Tz_m \end{bmatrix}) + \sum_{i=1}^{m} x_i^Tx_i\\ & = -tr(Z^TZ)+ \sum_{i=1}^{m} x_i^Tx^i \\& = -tr( X^TWW^TX) + \sum_{i=1}^{m} x_i^Tx_i \end{aligned}$
另外，如果矩阵 $A, B$ 都是维度刚好对称的话(比如A是5*3，B是3*5)，那么有 $t r (A B) = t r (B A)$ ， $\frac{\partial tr(AB)}{\partial B}=\frac{\partial tr(BA)}{\partial B}=A^T$ ， $\frac{tr(\partial X^TWW^TX)}{\partial W}=\frac{\partial X^TW}{\partial W} \frac{tr(\partial X^TWW^TX)}{\partial X^TW}=XX^TW$ ， $\frac{\partial A^TB}{\partial B}=A$
在PCA算法的应用中，如果特征矩阵定义成了 $X\in R^{m*n}$ 并且 $x_{ij}$ 代表第 $j$ 个样本的第 $i$ 个特征，即 $n$ 个样本，每个样本 $m$ 个特征，由于PCA需要求每两个特征的协方差矩阵（ $cov(a_i,a_j)=E[(a_i-Ea_i)(a_j-Ea_j)]=\frac{\sum_{k=1}^{n}(x_{ik}-\bar{x}_{ik})(x_{jk}-\bar{x}_{jk})}{n-1}$ ），于是先把特征归一化，让每个特征的均值为0，由于分母是常数并且最后要对特征向量归一化，所以可以不用管分母，这样， $XX^T$ 就代表了没有分母的协方差矩阵，他是一个 $m * m$ 的对称方阵，其中第 $i$ 行第 $j$ 列的元素等于 $\sum_{k=1}^{n}x_{ik}x_{jk}$ 即第i个特征和第j个特征的协方差乘以 $n - 1$ ，也因此，每个特征向量都是一个 $m$ 维的列向量，如果选取特征值最高的 $r$ 个特征向量，则可以组成一个特征向量矩阵 $W\in R^{m*r}$ ，于是降维之后的特征就变成了 $Z=W^TX\in R^{r*n}$ ，即降维至 $r$ 维

PCA为什么要进行中心化
PCA必须要均值化，sklearn的实现里，不管你输入的是什么，内部都先均值化了。以最小投影距离的角度，左图里最小投影距离对应的特征向量的确就应该是那样的，因为每个点到远点的距离都很远，最小投影距离的特征向量就不是像右图那样从左上指向右下的了。
极端例子，如果所有样本点都处于支线 $y = - x + 1000$ 上并且处于(500,500)附近，那么这个时候，最小投影距离的点向量是什么，不是(-1,-1)，而是(1,1)，因为所有点距离远点都太远了。所以PCA里规定必须要0均值。而从最大投影方差的角度，如果没有提前0均值，那么最后的优化问题就不是 $tr( X^TWW^TX)$ ，而应该是 $(X^T-\mu^T)WW^T(X-\mu))$

奇异值分解（SVD）原理
SVD核心是通过选取最大的奇异值并用那三个矩阵来近似原特征矩阵A。为什么可以近似呢，因为一些很小的奇异值对于最终的矩阵A的值贡献非常少。举例来讲，下面都是列向量
$[u_1,u_2]\begin{bmatrix} 1000 & 0 \\ 0 & 0.001 \end{bmatrix}[v_1,v_2]^T=1000u_1*v_1^T+0.001u_2*v_2^T$ 显然，可以把第二项删掉
既可以用来各种机器学习算法，也可以用来压缩数据，比如A是一张512*512的图片，如果用SVD来存储的话，如果选择最大的前100个奇异值，那就存200个特征向量（512维）加200个特征值就可以了
SVD那篇博客里，矩阵A的每一行代表一个样本，因此 $A^TA$ 等价于PCA那篇博客里的 $XX^T$ ，SVD算法中的右奇异矩阵 $V$ 等于PCA算法中的特征向量矩阵 $W$ ，不过这玩意也不绝对，看矩阵是怎么定义的。
SVD之后V的行少了，U的列也少了，怎么解释呢，刚刚提到过，U和V其中一个对应了PCA里的降维后的特征轴：
如果现在每一行代表一个样本，每一列代表一个特征，那么对 $A^TA$ 进行特征值分解求右奇异矩阵等价于PCA算法，比如说现在有个坐标系，x轴是特征1，y轴是特征2，坐标系上的每个点代表一个样本，如果多数样本的特征1和特征2是线性关系，那就说明这两个特征是冗余，右奇异矩阵就可以把特征1和特征2合并成一个新特征；
对 $AA^T$ 进行特征分解求左奇异矩阵怎么理解呢：先换个思维，A矩阵里的第1行代表第1个样本在所有特征上的取值，比如说现在有一个平面坐标系，x轴是样本1，y轴是样本2（不太好理解，请类比于特征坐标系），那坐标系上的每一个点都代表着这两个样本在同一个特征上的取值，如果多数特征上这两个样本的取值是线性关系，那就说明这两个样本是冗余，左奇异矩阵可以把这两个样本构建成一个新样本。

局部线性嵌入(LLE)原理总结
 线性判别分析LDA原理总结

类间距离大，类内方差小，只能降低到少于类别数目的维度上。并且用的也是k个最大的特征向量
面用了很多矩阵知识，假如特征矩阵为 $X=[x_1,x_2,...]$ ，列向量代表一个样本，设均值为0向量，那么协方差（ $cov(a_i,a_j)=E[(a_i-Ea_i)(a_j-Ea_j)]=\frac{\sum_{k=1}^{n}(x_{ik}-\bar{x}_{ik})(x_{jk}-\bar{x}_{jk})}{n-1}$ ，意义就是，捞出一个样本，然后计算这个样本的第i个和第j个特征减去各自均值的乘积，再对所有乘积求和），因此协方差矩阵就是 $\sum x_ix_i^T=XX^T$ ，而 $\sum x_i^Tx_i$ 就是所有特征的方差的和，其实就是 $tr(XX^T)$
LDA里用的就是协方差矩阵，但是只用了对角线，实际上也就是方差的和

文本挖掘预处理之向量化与Hash Trick
用可视化思维解读统计自由度
 结合日常生活的例子，了解什么是卡方检验

增强学习(Reinforcement Learning)

增强学习基础

强化学习系列（上）：关于强化学习，你需要知道的重要知识点
 强化学习系列（下）：贝尔曼方程
 强化学习学习笔记列表
 刘建平强化学习

理解一下bellman方程吧，强化学习后序就不看了，看不明白，感觉也用不上
$v_{\pi}(s) = \sum\limits_{a \in A} \pi(a|s)q_{\pi}(s,a)$ ， $\pi(a|s)$ 代表的是当前状态为 $s$ 的时候，采取行动 $a$ 的概率，因此 $\pi$ 可以看做决策， $q_{\pi}(s,a)$ 代表的是当前状态为 $s$ 的时候并且采取行动 $a$ 时候的收益，因此 $v_{\pi}(s)$ 代表的就是在当前决策之下并且状态为 $s$ 时候的收益
$q_{\pi}(s,a) = R_s^a + \gamma \sum\limits_{s' \in S}P_{ss'}^av_{\pi}(s')$ ， $R_s^a$ 代表的是当状态为 $s$ ，采取行动为 $a$ 时的直接收益； $P_{ss'}^a$ 是当前状态为 $s$ ，采取了行动 $a$ ，然后下一时刻状态为 $s^{'}$ 的概率； $v$ 的含义同上。因此 $q_\pi(s,a)$ 代表的就是当前状态为s，并且采取行动a的时候的收益。