面试知识点总结

最新推荐文章于 2020-12-23 15:08:23 发布

子墨777

最新推荐文章于 2020-12-23 15:08:23 发布

阅读量4k

点赞数

分类专栏：面试知识点总结面试总结

本文链接：https://blog.csdn.net/ttomchy/article/details/104839345

版权

面试知识点总结同时被 2 个专栏收录

3 篇文章 0 订阅

订阅专栏

面试总结

2 篇文章 0 订阅

订阅专栏

c++ 面试题目

https://www.zhihu.com/search?type=content&q=c%2B%2B%20%E9%9D%A2%E8%AF%95%E9%A2%98%E7%9B%AE

c++ 面试题目

https://www.zhihu.com/search?type=content&q=c%2B%2B%20%E9%9D%A2%E8%AF%95%E9%A2%98%E7%9B%AE

霍夫变换

知识点：图像空间的一条线，对应于参数空间的一个点，参数空间的一个点，对应于原始空间的一条线，

通过将原始空间的线段进行转换，如果在参数空间聚集点，即可以认为原空间存在线段

关于梯度优化的一个很好的文章：（包含有各种梯度优化方法）

https://blog.csdn.net/heyongluoyao8/article/details/52478715

图像数据平滑算法

对于神经网络：

第一个问题：为什么引入非线性激励函数？
如果不用激励函数（其实相当于激励函数是f(x) = x），在这种情况下你每一层输出都是上层输入的线性函数，很容易验证，无论你神经网络有多少层，输出都是输入的线性组合，与只有一个隐藏层效果相当，这种情况就是多层感知机（MLP）了。
正因为上面的原因，我们决定引入非线性函数作为激励函数，这样深层神经网络就有意义了（不再是输入的线性组合，可以逼近任意函数）。最早的想法是sigmoid函数或者tanh函数，输出有界，很容易充当下一层输入（以及一些人的生物解释balabala）。

第二个问题：为什么引入Relu呢？
第一，采用sigmoid等函数，反向传播求误差梯度时，求导计算量很大，而Relu求导非常容易。
第二，对于深层网络，sigmoid函数反向传播时，很容易就会出现梯度消失的情况（在sigmoid接近饱和区时，变换太缓慢，导数趋于0），从而无法完成深层网络的训练。
第三，Relu会使一部分神经元的输出为0，这样就造成了网络的稀疏性，并且减少了参数的相互依存关系，缓解了过拟合问题的发生（以及一些人的生物解释balabala）。

Linear SVM与LR的异同
Linear SVM和LR都是线性分类器
Linear SVM不直接依赖于数据分布，分类平面不受一类点影响；LR则受所有数据点的影响，如果数据不同类别strongly unbalance一般需要先对数据做balancing。
Linear SVM依赖数据表达的距离测量，所以需要对数据先做normalization；LR不受其影响
Linear SVM依赖penalty的系数，实验中需要做validation
Linear SVM和LR的performance都会受到outlier的影响，其敏感程度而言，谁更好很难下明确结论。
参考：Linear SVM 和 LR 有什么异同？
5）SVM与神经网络的关系
线性SVM的计算部分和一个单层神经网路一样，都是一个矩阵乘积。SVM的关键在于它的Hinge Loss以及maximum margin的想法，其实这个loss也可以应用在神经网络里。
对于处理非线性任务时，SVM和神经网络走了两条不同的路：神经网络通过多个隐层+激活函数的方法来实现非线性的函数；SVM则采用了kernel trick的方法。两者各有好坏，神经网络的好处是网络设计可以很灵活；SVM的理论很漂亮，但是kernel设计不是那么容易。
6) SGD,Momentum,Adagard,Adam原理

SGD为随机梯度下降,每一次迭代计算数据集的mini-batch的梯度,然后对参数进行跟新。

Momentum参考了物理中动量的概念,前几次的梯度也会参与到当前的计算中,但是前几轮的梯度叠加在当前计算中会有一定的衰减。 Adagard在训练的过程中可以自动变更学习的速率,设置一个全局的学习率,而实际的学习率与以往的参数模和的开方成反比。

Adam利用梯度的一阶矩估计和二阶矩估计动态调整每个参数的学习率,在经过偏置的校正后,每一次迭代后的学习率都有个确定的范围,使得参数较为平稳。

https://www.cnblogs.com/GeekDanny/p/9655597.html

7）L1不可导的时候该怎么办

参考回答:

当损失函数不可导,梯度下降不再有效,可以使用坐标轴下降法,梯度下降是沿着当前点的负梯度方向进行参数更新,而坐标轴下降法是沿着坐标轴的方向,假设有m个特征个数,坐标轴下降法进参数更新的时候,先固定m-1个值,然后再求另外一个的局部最优解,从而避免损失函数不可导问题。使用Proximal Algorithm对L1进行求解,此方法是去优化损失函数上界结果。

8）sigmoid函数特性

参考答案

参考回答:

定义域为

值域为(-1,1)

函数在定义域内为连续和光滑的函数

处处可导,导数为

9）切比雪夫不等式

10）最大似然估计与最大后验概率的区别与联系

https://blog.csdn.net/laobai1015/article/details/78062767

11）概率和似然的区别

概率是指在给定参数的情况下,样本的随机向量X=x的可能性。而似然表示的是在给定样本X=x的情况下,参数为真实值的可能性。一般情况,对随机变量的取值用概率表示。而在非贝叶斯统计的情况下,参数为一个实数而不是随机变量,一般用似然来表示。

12) 频率学派和贝叶斯学派的区别

往大里说，世界观就不同，频率派认为参数是客观存在，不会改变，虽然未知，但却是固定值；贝叶斯派则认为参数是随机值，因为没有观察到，那么和是一个随机数也没有什么区别，因此参数也可以有分布，个人认为这个和量子力学某些观点不谋而合。

往小处说，频率派最常关心的是似然函数，而贝叶斯派最常关心的是后验分布。我们会发现，后验分布其实就是似然函数乘以先验分布再normalize一下使其积分到1。因此两者的很多方法都是相通的。贝叶斯派因为所有的参数都是随机变量，都有分布，因此可以使用一些基于采样的方法（如MCMC）使得我们更容易构建复杂模型。频率派的优点则是没有假设一个先验分布，因此更加客观，也更加无偏，在一些保守的领域（比如制药业、法律）比贝叶斯方法更受到信任。

知乎上看到一个举例描述：你看打麻将的时候：只看下面有什么牌来决策的就是频率学派；除了看下面有什么牌，还考虑了这个牌是谁打出的，什么时候打出的，这个人打出所有牌友什么联系等一系列问题的就是贝叶斯学派。
原文链接：https://blog.csdn.net/lzq20115395/article/details/79563747

13) Lasso的损失函数

14) Sfit特征提取和匹配的具体步骤

生成高斯差分金字塔,尺度空间构建,空间极值点检测,稳定关键点的精确定位,稳定关键点方向信息分配,关键点描述,特征点匹配。

15) 求mk矩阵A和nk矩阵的欧几里得距离?

A^2+B^2-2AB^t

16) pca 主成分分析简介

主成分分析 (PCA, principal component analysis)是一种数学降维方法, 利用正交变换(orthogonal transformation)把一系列可能线性相关的变量转换为一组线性不相关的新变量，也称为主成分，从而利用新变量在更小的维度下展示数据的特征。

主成分是原有变量的线性组合，其数目不多于原始变量。组合之后，相当于我们获得了一批新的观测数据，这些数据的含义不同于原有数据，但包含了之前数据的大部分特征，并且有着较低的维度，便于进一步的分析。

在空间上，PCA可以理解为把原始数据投射到一个新的坐标系统，第一主成分为第一坐标轴，它的含义代表了原始数据中多个变量经过某种变换得到的新变量的变化区间；第二成分为第二坐标轴，代表了原始数据中多个变量经过某种变换得到的第二个新变量的变化区间。这样我们把利用原始数据解释样品的差异转变为利用新变量解释样品的差异。
作者：oddxix
链接：https://www.jianshu.com/p/f8dc1eb78279
来源：简书
著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

17）矩阵正定性的判断,Hessian矩阵正定性在梯度下降中的应用

若矩阵所有特征值均不小于0,则判定为半正定。若矩阵所有特征值均大于0,则判定为正定。在判断优化算法的可行性时Hessian矩阵的正定性起到了很大的作用,若Hessian正定,则函数的二阶偏导恒大于0,函数的变化率处于递增状态,在牛顿法等梯度下降的方法中,Hessian矩阵的正定性可以很容易的判断函数是否可收敛到局部或全局最优解。

18）讲一下PCA

PCA是比较常见的线性降维方法,通过线性投影将高维数据映射到低维数据中,所期望的是在投影的维度上,新特征自身的方差尽量大,方差越大特征越有效,尽量使产生的新特征间的相关性越小。

PCA算法的具体操作为对所有的样本进行中心化操作,计算样本的协方差矩阵,然后对协方差矩阵做特征值分解,取最大的n个特征值对应的特征向量构造投影矩阵。

19）拟牛顿法的原理

牛顿法的收敛速度快,迭代次数少,但是Hessian矩阵很稠密时,每次迭代的计算量很大,随着数据规模增大,Hessian矩阵也会变大,需要更多的存储空间以及计算量。拟牛顿法就是在牛顿法的基础上引入了Hessian矩阵的近似矩阵,避免了每次都计算Hessian矩阵的逆,在拟牛顿法中,用Hessian矩阵的逆矩阵来代替Hessian矩阵,虽然不能像牛顿法那样保证最优化的方向,但其逆矩阵始终是正定的,因此算法始终朝最优化的方向搜索。

20）SVM中什么时候用线性核什么时候用高斯核?

当数据的特征提取的较好,所包含的信息量足够大,很多问题是线性可分的那么可以采用线性核。若特征数较少,样本数适中,对于时间不敏感,遇到的问题是线性不可分的时候可以使用高斯核来达到更好的效果。

21）什么是支持向量机,SVM与LR的区别?

支持向量机为一个二分类模型,它的基本模型定义为特征空间上的间隔最大的线性分类器。而它的学习策略为最大化分类间隔,最终可转化为凸二次规划问题求解。

LR是参数模型,SVM为非参数模型。LR采用的损失函数为logisticalloss,而SVM采用的是hingeloss。在学习分类器的时候,SVM只考虑与分类最相关的少数支持向量点。LR的模型相对简单,在进行大规模线性分类时比较方便。

22 ）机器学习中的距离计算方法?

设空间中两个点为

欧式距离:

曼哈顿距离:

余弦距离:

cos=

切比雪夫距离:max

23）问题：朴素贝叶斯（naive Bayes）法的要求是？

贝叶斯定理、特征条件独立假设

解析：朴素贝叶斯属于生成式模型，学习输入和输出的联合概率分布。给定输入x，利用贝叶斯概率定理求出最大的后验概率作为输出y。

24）问题：训练集中类别不均衡，哪个参数最不准确？

准确度（Accuracy）

解析：举例，对于二分类问题来说，正负样例比相差较大为99:1，模型更容易被训练成预测较大占比的类别。因为模型只需要对每个样例按照0.99的概率预测正类，该模型就能达到99%的准确率。

25 ）SVM的作用，基本实现原理

参考回答:

SVM可以用于解决二分类或者多分类问题，此处以二分类为例。SVM的目标是寻找一个最优化超平面在空间中分割两类数据，这个最优化超平面需要满足的条件是：离其最近的点到其的距离最大化，这些点被称为支持向量。

解析：建议练习推导SVM，从基本式的推导，到拉格朗日对偶问题。

26）问题：SVM的硬间隔，软间隔表达式

参考回答:

左边为硬间隔；右边为软间隔

解析：不同点在于有无引入松弛变量参考答案

；

27）SVM使用对偶计算的目的是什么，如何推出来的，手写推导

目的有两个：一是方便核函数的引入；二是原问题的求解复杂度与特征的维数相关，而转成对偶问题后只与问题的变量个数有关。由于SVM的变量个数为支持向量的个数，相较于特征位数较少，因此转对偶问题。通过拉格朗日算子发使带约束的优化目标转为不带约束的优化函数，使得W和b的偏导数等于零，带入原来的式子，再通过转成对偶问题。

28）问题：如果给你一些数据集，你会如何分类（我是分情况答的，从数据的大小，特征，是否有缺失，分情况分别答的

参考回答:

根据数据类型选择不同的模型，如Lr或者SVM，决策树。假如特征维数较多，可以选择SVM模型，如果样本数量较大可以选择LR模型，但是LR模型需要进行数据预处理；假如缺失值较多可以选择决策树。选定完模型后，相应的目标函数就确定了。还可以在考虑正负样例比比，通过上下集采样平衡正负样例比。

解析：需要了解多种分类模型的优缺点，以及如何构造分类模型的步骤

29）如果数据有问题，怎么处理；

参考回答:

1.上下采样平衡正负样例比；2.考虑缺失值；3.数据归一化

解析：发散问题需要自己展现自己的知识面参考答案

30）生成模型和判别模型基本形式，有哪些？

生成式：朴素贝叶斯、HMM、Gaussians、马尔科夫随机场

判别式：LR，SVM，神经网络，CRF，Boosting

详情：支持向量机

31 核函数的种类和应用场景。

参考回答:

线性核、多项式核、高斯核。

特征维数高选择线性核

样本数量可观、特征少选择高斯核（非线性核）

样本数量非常多选择线性核（避免造成庞大的计算量）

详情：支持向量机

32）分类算法列一下有多少种？应用场景。

参考回答:

单一的分类方法主要包括：LR逻辑回归，SVM支持向量机，DT决策树、NB朴素贝叶斯、NN人工神经网络、K-近邻；集成学习算法：基于Bagging和Boosting算法思想，RF随机森林,GBDT，Adaboost,XGboost。

33）SVM的损失函数

参考回答:

34）SVM为什么使用对偶函数求解

参考回答:

对偶将原始问题中的约束转为了对偶问题中的等式约束,而且更加方便了核函数的引入,同时也改变了问题的复杂度,在原始问题下,求解问题的复杂度只与样本的维度有关,在对偶问题下,只与样本的数量有关。ID3,C4.5和CART三种决策树的区别

35）ID3,C4.5和CART三种决策树的区别

参考回答:

ID3决策树优先选择信息增益大的属性来对样本进行划分,但是这样的分裂节点方法有一个很大的缺点,当一个属性可取值数目较多时,可能在这个属性对应值下的样本只有一个或者很少个,此时它的信息增益将很高,ID3会认为这个属性很适合划分,但实际情况下叫多属性的取值会使模型的泛化能力较差,所以C4.5不采用信息增益作为划分依据,而是采用信息增益率作为划分依据。但是仍不能完全解决以上问题,而是有所改善,这个时候引入了CART树,它使用gini系数作为节点的分裂依据。

36）SVM中，高斯核为什么会把原始维度映射到无穷多维?

因为将泰勒展开式代入高斯核,将会得到一个无穷维度的映射。

https://blog.csdn.net/guo1988kui/article/details/80207551

完整推导svm一遍，还有强化学习说一说，dqn的各种trick了解多少，以及都怎么实现

37 ）完整推导svm一遍，还有强化学习说一说，dqn的各种trick了解多少，以及都怎么实现

参考回答:

SVM推导：

支持向量机是一种二分类模型，他的基本想法就是基于训练集和样本空间中找到一个最好的划分超平面，将两类样本分割开来，首先你就要知道什么样的划分发才能称为“最”好划分

看上图，二维平面上有两类样本，一类是用‘+’表示，另一类用‘-’表示，那么中间那几条划分线每条都能将两类样本分割开来，但我们我们一眼就注意到中间那条加粗的划分超平面，似乎他是最好的，因为两类的样本点都离他挺远的，专业点说就是该划分超平面对训练样本局部扰动的‘容忍’性最好。好，这还只是个二维平面，我们可以通过可视化大概寻找这样一个超平面，但如果三维，四维，五维呢，我们必须用我们擅长的数学去描述它，推导它。

在样本空间中，划分超平面可用表示，记为（w,b）,样本点（xi,yi）到划分超平面的函数间隔为
，几何间隔为：

若，可知函数间隔和几何间隔相等，若超平面参数w，b成比例的改变（超平面没有变），则函数间隔也是成比例的改变，而几何间隔不变。

支持向量机的基本想法就是求解能够正确划分训练数据集并且几何间隔最大的分离超平面，表达为数学公式即为：

其实函数间隔的取值并不影响最优化问题的解，假设将w和b成倍的改变为aw，ab，那么函数间隔也会相应变成a，函数间隔的对上面最优化问题的不等式没有影响，也对目标函数没有影响，因此为简便，取，而且我们注意到最大化等价于最小化（为啥取平方呢，因为后面好求导），便可得到下面支持线性可分（线性不可分的情况后面会提到）的支持向量机的最优化问题

这是一个凸二次优化的问题，可以直接求解，但是为了简便呢，我们要应用拉格朗日对偶性，求解他的对偶问题

其实求解对偶问题相比于原问题有一下几点好处(1).对偶问题更容易求解，因为不用求w了 (2)我们可以自然引入核函数，这样可以推广到线性不可分分类问题上

建立拉格朗日函数，引进拉格朗日乘子，定义拉格朗日函数：

根据原始问题的对偶性，原始问题的对偶性是极大极小问题，即

首先我们来求最小，零L(w,b,a)分别对w和b求导为零可

得

将其代入对偶问题，可得

解出alpha之后，那么w，b也相应得到啦

接下来，我们看看很有意思的上式不等式约束的kkt条件（不懂请百度）带给我们的信息

咦，对于任意训练样本，总有或者，也就是说最终与模型有关的的样本点都位于最大间隔的边界上，我们称之为支持向量，其余的样本点与模型无关

在前面的讨论中，我们都是聊的线性可分的情况，那么大多数情况下都线性不可分怎么办，比如这样（如左）

山人自有妙计，我们可以将样本先映射到高维特征空间，然后就可以继续分割了（如右）

前面我们说到了对偶问题是

公式中涉及到计算，xi，xj是映射到特征空间之后的内积，由于特征维数可能会很高，甚至是无穷多维，直接计算很困难，所以我们引入了核函数：

这样我们就可以不用麻烦的计算内积了

dqn的各种trick：

第一个Trick。DQN引入卷积层。模型通过Atari游戏视频图像了解环境信息并学习策略。DQN需要理解接收图像，具有图像识别能力。卷积神经网络，利用可提取空间结构信息卷积层抽取特征。卷积层提取图像中重要目标特征传给后层做分类、回归。DQN用卷积层做强化学习训练，根据环境图像输出决策。

第二个Trick。Experience Replay。深度学习需要大量样本，传统Q-Learning online update方法(逐一对新样本学习)不适合DQN。增大样本，多个epoch训练，图像反复利用。Experience Replay，储存Agent Experience样本，每次训练随机抽取部分样本供网络学习。稳定完成学习任务，避免短视只学习最新接触样本，综合反复利用过往大量样本学习。创建储存Experience缓存buffer，储存一定量较新样本。容量满了，用新样本替换最旧样本，保证大部分样本相近概率被抽到。不替换旧样本，训练过程被抽到概率永远比新样本高很多。每次需要训练样本，直接从buffer随机抽取一定量给DQN训练，保持样本高利用率，让模型学习到较新样本。

第三个Trick。用第二个DQN网络辅助训练，target DQN，辅助计算目标Q值，提供学习目标公式里的maxaQ(st+1,a)。两个网络，一个制造学习目标，一个实际训练，让Q-Learning训练目标保持平稳。强化学习 Q-Learning学习目标每次变化，学习目标分部是模型本身输出，每次更新模型参数会导致学习目标变化，更新频繁幅度大，训练过程会非常不稳定、失控，DQN训练会陷入目标Q值与预测Q值反馈循环(陷入震荡发散，难收敛)。需要稳定target DQN辅助网络计算目标Q值。target DQN，低频率、缓慢学习，输出目标Q值波动较小，减小训练过程影响。

第四个Trick。Double DQN。传统DQN高估Action Q值，高估不均匀，导致次优Action被高估超过最优Action。targetDQN 负责生成目标Q值，先产生Q(st+1,a)，再通过maxa选择最大Q值。Double DQN，在主DQN上通过最大Q值选择Action，再获取Action在target DQN Q值。主网选择Action，targetDQN生成Action Q值。被选择Q值，不一定总是最大，避免被高估次优Action总是超过最优Action，导致发现不了真正最好Action。学习目标公式：Target=rt+1+γ·Qtarget(st+1,argmaxa(Qmain(st+1,a)))。

第五个Trick。Dueling DQN。Dueling DQN，Q值函数Q(st,at)拆分，一部分静态环境状态具有价值V(st)，Value；另一部分动态选择Action额外带来价值A(at)，Advantage。公式，Q(st,at)=V(st)+A(at)。网络分别计算环境Value和选择Action Advantage。Advantage，Action与其他Action比较，零均值。网络最后，不再直接输出Action数量Q值，输出一个Value，及Action数量 Advantage值。V值分别加到每个Advantage值上，得最后结果。让DQN学习目标更明确，如果当前期望价值主要由环境状态决定，Value值大，所有Advantage波动不大；如果期望价值主要由Action决定，Value值小，Advantage波动大。分解让学习目标更稳定、精确，DQN对环境状态估计能力更强。

57 /392 朴素贝叶斯基本原理和预测过程

参考答案

参考回答:

朴素贝叶斯分类和预测算法的原理

决策树和朴素贝叶斯是最常用的两种分类算法，本篇文章介绍朴素贝叶斯算法。贝叶斯定理是以英国数学家贝叶斯命名，用来解决两个条件概率之间的关系问题。简单的说就是在已知P(A|B)时如何获得P(B|A)的概率。朴素贝叶斯（Naive Bayes）假设特征P(A)在特定结果P(B)下是独立的。

1.概率基础：

在开始介绍贝叶斯之前，先简单介绍下概率的基础知识。概率是某一结果出现的可能性。例如，抛一枚匀质硬币，正面向上的可能性多大？概率值是一个0-1之间的数字，用来衡量一个事件发生可能性的大小。概率值越接近1，事件发生的可能性越大，概率值越接近0，事件越不可能发生。我们日常生活中听到最多的是天气预报中的降水概率。概率的表示方法叫维恩图。下面我们通过维恩图来说明贝叶斯公式中常见的几个概率。

在维恩图中：

S：S是样本空间，是所有可能事件的总和。

P(A)：是样本空间S中A事件发生的概率，维恩图中绿色的部分。

P(B)：是样本空间S中B事件发生的概率，维恩图中蓝色的部分。

P(A∩B)：是样本空间S中A事件和B事件同时发生的概率，也就是A和B相交的区域。

P(A|B)：是条件概率，是B事件已经发生时A事件发生的概率。

对于条件概率，还有一种更清晰的表示方式叫概率树。下面的概率树表示了条件概率P(A|B)。与维恩图中的P(A∩B)相比，可以发现两者明显的区别。P(A∩B)是事件A和事件B同时发现的情况，因此是两者相交区域的概率。而事件概率P(A|B)是事件B发生时事件A发生的概率。这里有一个先决条件就是P(B)要首先发生。

因为条件概率P(A|B)是在事件B已经发生的情况下，事件A发生的概率，因此P(A|B)可以表示为事件A与B的交集与事件B的比率。

该公式还可以转换为以下形式，以便我们下面进行贝叶斯公式计算时使用。

2.贝叶斯公式：

该公式同样可以转化为以下形式：

到这一步，我们只需要证明P(A∩B)= P(B∩A)就可以证明在已知P(A|B)的情况下可以通过计算获得P(B|A)的概率。我们将概率树转化为下面的概率表，分别列出P(A|B),P(B|A),P(A),和P(B)的概率。

通过计算可以证明P(A|B)*P(B)和P(B|A)*P(A)最后求得的结果是概率表中的同一个区域的值，因此：

我们通过P(A∩B)= P(B∩A)证明了在已知P(A|B)，P(A),和P(B)三个概率的情况下可以计算出P(B|A)发生的概率。整个推导和计算过程可以说得通。但从统计学的角度来看，P(A|B)和P(B|A)两个条件概率之间存在怎样的关系呢？我们从贝叶斯推断里可以找到答案。

3.贝叶斯推断：

贝叶斯推断可以说明贝叶斯定理中两个条件概率之间的关系。换句话说就是我们为什么可以通过P(A|B)，P(A),和P(B)三个概率计算出P(B|A)发生的概率。

在贝叶斯推断中，每一种概率都有一个特定的名字：

P(B)是”先验概率”(Prior probability)。

P(A)是”先验概率”(Prior probability)，也作标准化常量(normalized constant)。

P(A|B)是已知B发生后A的条件概率，叫做似然函数(likelihood)。

P(B|A)是已知A发生后B的条件概率，是我们要求的值，叫做后验概率。

P(A|B)/P(A)是调整因子，也被称作标准似然度（standardised likelihood）。

贝叶斯推断中有几个关键的概念需要说明下：

第一个是先验概率，先验概率是指我们主观通过事件发生次数对概率的判断。

第二个是似然函数，似然函数是对某件事发生可能性的判断，与条件概率正好相反。通过事件已经发生的概率推算事件可能性的概率。

维基百科中对似然函数与概率的解释：

概率：是给定某一参数值，求某一结果的可能性。

例如，抛一枚匀质硬币，抛10次，6次正面向上的可能性多大？

似然函数：给定某一结果，求某一参数值的可能性。

例如，抛一枚硬币，抛10次，结果是6次正面向上，其是匀质的可能性多大？

第三个是调整因子：调整因子是似然函数与先验概率的比值，这个比值相当于一个权重，用来调整后验概率的值，使后验概率更接近真实概率。调整因子有三种情况，大于1，等于1和小于1。

调整因子P(A|B)/P(A)>1：说明事件可能发生的概率要大于事件已经发生次数的概率。

调整因子P(A|B)/P(A)=1：说明事件可能发生的概率与事件已经发生次数的概率相等。

调整因子P(A|B)/P(A)<1：说明事件可能发生的概率与事件小于已经发生次数的概率。

因此，贝叶斯推断可以理解为通过先验概率和调整因子来获得后验概率。其中调整因子是根据事件已经发生的概率推断事件可能发生的概率（通过硬币正面出现的次数来推断硬币均匀的可能性），并与已经发生的先验概率（硬币正面出现的概率）的比值。通过这个比值调整先验概率来获得后验概率。

后验概率＝先验概率ｘ调整因子

请你说一说交叉熵，也可以再说一下其他的你了解的熵

参考回答:

为了更好的理解，需要了解的概率必备知识有：

大写字母X表示随机变量，小写字母x表示随机变量X的某个具体的取值；

P(X)表示随机变量X的概率分布，P(X,Y)表示随机变量X、Y的联合概率分布，P(Y|X)表示已知随机变量X的情况下随机变量Y的条件概率分布；

p(X=x)表示随机变量X取某个具体值的概率，简记为p(x)；

p(X=x,Y=y) 表示联合概率，简记为p(x,y)，p(Y=y|X=x)表示条件概率，简记为p(y|x)，且有：p(x,y)=p(x)*p(y|x)。

熵：如果一个随机变量X的可能取值为X={x1,x2,…,xk}，其概率分布为P(X=xi)=pi（i= 1,2,...,n），则随机变量X的熵定义为：

把最前面的负号放到最后，便成了：

上面两个熵的公式，无论用哪个都行，而且两者等价，一个意思（这两个公式在下文中都会用到）。

联合熵：两个随机变量X，Y的联合分布，可以形成联合熵Joint Entropy，用H(X,Y)表示。

条件熵：在随机变量X发生的前提下，随机变量Y发生所新带来的熵定义为Y的条件熵，用H(Y|X)表示，用来衡量在已知随机变量X的条件下随机变量Y的不确定性。

且有此式子成立：H(Y|X)=H(X,Y)-H(X)，整个式子表示(X,Y)发生所包含的熵减去X单独发生包含的熵。至于怎么得来的请看推导：

简单解释下上面的推导过程。整个式子共6行，其中

第二行推到第三行的依据是边缘分布p(x)等于联合分布p(x,y)的和；

第三行推到第四行的依据是把公因子logp(x)乘进去，然后把x,y写在一起；

第四行推到第五行的依据是：因为两个sigma都有p(x,y)，故提取公因子p(x,y)放到外边，然后把里边的-logp(x,y)-logp(x)）写成-log(p(x,y)/p(x)) ；

第五行推到第六行的依据是：p(x,y)=p(x)*p(y|x)，故p(x,y)/p(x)=p(y|x)。

相对熵：又称互熵，交叉熵，鉴别信息，Kullback熵，Kullback-Leible散度等。设p(x)、q(x)是X中取值的两个概率分布，则p对q的相对熵是：

在一定程度上，相对熵可以度量两个随机变量的“距离”，且有D(p||q) ≠D(q||p)。另外，值得一提的是，D(p||q)是必然大于等于0的。

互信息：两个随机变量X，Y的互信息定义为X，Y的联合分布和各自独立分布乘积的相对熵，用I(X,Y)表示：

且有I(X,Y)=D(P(X,Y)||P(X)P(Y))。下面，咱们来计算下H(Y)-I(X,Y)的结果，如下：

通过上面的计算过程，我们发现竟然有H(Y)-I(X,Y)=H(Y|X)。故通过条件熵的定义，有：H(Y|X)=H(X,Y)-H(X)，而根据互信息定义展开得到H(Y|X)=H(Y)-I(X,Y)，把前者跟后者结合起来，便有I(X,Y)= H(X)+H(Y)-H(X,Y)，此结论被多数文献作为互信息的定义。

l1 与 l2 正则化的区别：

https://www.jianshu.com/p/76368eba9c90

（1）L1正则化使参数为零（2）L2正则化使参数减小

Loss Function有哪些，怎么用？

参考回答:

平方损失（预测问题）、交叉熵（分类问题）、hinge损失（SVM支持向量机）、CART回归树的残差损失

机器学习：知道哪些传统机器学习模型

常见的机器学习算法：

参考回答:

常见的机器学习算法：

1）.回归算法：回归算法是试图采用对误差的衡量来探索变量之间的关系的一类算法。回归算法是统计机器学习的利器。常见的回归算法包括：最小二乘法（Ordinary Least Square），逐步式回归（Stepwise Regression），多元自适应回归样条（Multivariate Adaptive Regression Splines）以及本地散点平滑估计（Locally Estimated Scatterplot Smoothing）。

2）.基于实例的算法：基于实例的算法常常用来对决策问题建立模型，这样的模型常常先选取一批样本数据，然后根据某些近似性把新数据与样本数据进行比较。通过这种方式来寻找最佳的匹配。因此，基于实例的算法常常也被称为“赢家通吃”学习或者“基于记忆的学习”。常见的算法包括 k-Nearest Neighbor(KNN), 学习矢量量化（Learning Vector Quantization， LVQ），以及自组织映射算法（Self-Organizing Map，SOM）。深度学习的概念源于人工神经网络的研究。含多隐层的多层感知器就是一种深度学习结构。深度学习通过组合低层特征形成更加抽象的高层表示属性类别或特征，以发现数据的分布式特征表示。

3）.决策树学习：决策树算法根据数据的属性采用树状结构建立决策模型，决策树模型常常用来解决分类和回归问题。常见的算法包括：分类及回归树（Classification And Regression Tree，CART），ID3 (Iterative Dichotomiser 3)，C4.5，Chi-squared Automatic Interaction Detection(CHAID), Decision Stump, 随机森林（Random Forest），多元自适应回归样条（MARS）以及梯度推进机（Gradient Boosting Machine，GBM）。

4）.贝叶斯方法：贝叶斯方法算法是基于贝叶斯定理的一类算法，主要用来解决分类和回归问题。常见算法包括：朴素贝叶斯算法，平均单依赖估计（Averaged One-Dependence Estimators，AODE），以及Bayesian Belief Network（BBN）。

5）.基于核的算法：基于核的算法中最著名的莫过于支持向量机（SVM）了。基于核的算法把输入数据映射到一个高阶的向量空间，在这些高阶向量空间里，有些分类或者回归问题能够更容易的解决。常见的基于核的算法包括：支持向量机（Support Vector Machine，SVM），径向基函数（Radial Basis Function，RBF)，以及线性判别分析（Linear Discriminate Analysis，LDA)等。

6）.聚类算法：聚类，就像回归一样，有时候人们描述的是一类问题，有时候描述的是一类算法。聚类算法通常按照中心点或者分层的方式对输入数据进行归并。所以的聚类算法都试图找到数据的内在结构，以便按照最大的共同点将数据进行归类。常见的聚类算法包括 k-Means算法以及期望最大化算法（Expectation Maximization，EM）。

7）.降低维度算法：像聚类算法一样，降低维度算法试图分析数据的内在结构，不过降低维度算法是以非监督学习的方式试图利用较少的信息来归纳或者解释数据。这类算法可以用于高维数据的可视化或者用来简化数据以便监督式学习使用。常见的算法包括：主成份分析（Principle Component Analysis，PCA），偏最小二乘回归（Partial Least Square Regression，PLS），Sammon映射，多维尺度（Multi-Dimensional Scaling, MDS）, 投影追踪（Projection Pursuit）等。

8）.关联规则学习：关联规则学习通过寻找最能够解释数据变量之间关系的规则，来找出大量多元数据集中有用的关联规则。常见算法包括 Apriori算法和Eclat算法等。

9）.集成算法：集成算法用一些相对较弱的学习模型独立地就同样的样本进行训练，然后把结果整合起来进行整体预测。集成算法的主要难点在于究竟集成哪些独立的较弱的学习模型以及如何把学习结果整合起来。这是一类非常强大的算法，同时也非常流行。常见的算法包括：Boosting，Bootstrapped Aggregation（Bagging），AdaBoost，堆叠泛化（Stacked Generalization，Blending），梯度推进机（Gradient Boosting Machine, GBM），随机森林（Random Forest）。

10）.人工神经网络：人工神经网络算法模拟生物神经网络，是一类模式匹配算法。通常用于解决分类和回归问题。人工神经网络是机器学习的一个庞大的分支，有几百种不同的算法。（其中深度学习就是其中的一类算法，我们会单独讨论），重要的人工神经网络算法包括：感知器神经网络（Perceptron Neural Network）, 反向传递（Back Propagation），Hopfield网络，自组织映射（Self-Organizing Map, SOM）。学习矢量量化（Learning Vector Quantization， LVQ）。

k-means算法流程

从数据集中随机选择k个聚类样本作为初始的聚类中心,然后计算数据集中每个样本到这k个聚类中心的距离,并将此样本分到距离最小的聚类中心所对应的类中。将所有样本归类后,对于每个类别重新计算每个类别的聚类中心即每个类中所有样本的质心,重复以上操作直到聚类中心不变为止。

正负样本不平衡的解决办法？评价指标的参考价值？

上下采样法。

好的指标：ROC和AUC、F值、G-Mean；不好的指标：Precision、Recall

随即森林进行特征选择，选择重要的特征

https://www.cnblogs.com/justcxtoworld/p/3447231.html

2. 如何理解过拟合？

过拟合和欠拟合一样，都是数据挖掘的基本概念。过拟合指的就是数据训练得太好，在实际的测试环境中可能会产生错误，所以适当的剪枝对数据挖掘算法来说也是很重要的。

欠拟合则是指机器学习得不充分，数据样本太少，不足以让机器形成自我认知。

3. 为什么说朴素贝叶斯是“朴素”的？

朴素贝叶斯是一种简单但极为强大的预测建模算法。之所以称为朴素贝叶斯，是因为它假设每个输入变量是独立的。这是一个强硬的假设，实际情况并不一定，但是这项技术对于绝大部分的复杂问题仍然非常有效。

4.SVM 最重要的思想是什么？

SVM 计算的过程就是帮我们找到超平面的过程，它有个核心的概念叫：分类间隔。SVM 的目标就是找出所有分类间隔中最大的那个值对应的超平面。在数学上，这是一个凸优化问题。同样我们根据数据是否线性可分，把 SVM 分成硬间隔 SVM、软间隔 SVM 和非线性 SVM。

5.K-Means 和 KNN 算法的区别是什么？

首先，这两个算法解决的是数据挖掘中的两类问题。K-Means 是聚类算法，KNN 是分类算法。其次，这两个算法分别是两种不同的学习方式。K-Means 是非监督学习，也就是不需要事先给出分类标签，而 KNN 是有监督学习，需要我们给出训练数据的分类标识。最后，K 值的含义不同。K-Means 中的 K 值代表 K 类。KNN 中的 K 值代表 K 个最接近的邻居。

数理统计基础

# 大数定律和中心极限定理

在数理统计中，我们经常假设总体 / 样本服从正态分布。这样的假设是有依据的，中心极限定理说明，在适当的条件下，大量相互独立随机变量的均值经适当标准化后依分布收敛于正态分布。

在参数估计中，我们经常用样本均值估计期望，这样的估计也是有依据的，根据大数定律可知，样本数量越多，其算术平均值就有越高的概率接近期望值。

大数定律和中心极限定律是数理统计的理论基础，我们不需要了解具体的数学公式和推导，只需知道其结论。

# 总体和样本

总体，即我们想要知道的数据总体，假如我们想知道某中学某次模拟全校学生的平均分数，但我们精力有限，无法每个班级每个学生都调查一遍，因此我们抽取了 100 个学生，得到他们的分数。在这个例子中，总体为全校学生，样本则是其中被抽取到的那 100 个学生。

# 简单随机抽样

统计学中抽取样本的方式有很多，这里我们介绍简单随机抽样，简单随机抽样需要满足：

# 简单随机抽样

统计学中抽取样本的方式有很多，这里我们介绍简单随机抽样，简单随机抽样需要满足：

样本之间互相独立
每个样本单位被抽中的概率相等

这样保证了样本和总体服从同一分布。

# 抽样分布

还是以学生均分为例，从全校学生中抽取 100 个，计算平均分数。如果反复多次抽取 100 个并计算平均分，每次计算的均分都很可能不相同，均分这一统计量也是服从一定的分布的，这种分布叫做抽样分布或统计量分布。统计量不一定是平均数，这里只是以此为例。

# 描述假设检验的过程

假设检验通常分为 4 步：

设置原假设和备择假设，选定显著水平（significance level）
检查假设是否满足，并据此选择合适的检验方法
计算检定统计量（test statistic），并据此计算 p 值
根据 p 值计算得出结论

# 描述假设检验和区间估计的差异

知识点 1. 区间估计是什么

区间估计是参数估计的一种，参数估计指用从总体中抽取的样本估计总体分布中包含的未知参数的方法。参数估计包含点估计和区间估计。

知识点 2. 点估计和区间估计

点估计是用样本对总体的参数估计出一个近似值，但是我们很难评估点估计的准确性，区间估计在点估计的基础上给出了一个误差范围，这样的范围叫做置信区间。

知识点 3. 置信区间

置信区间是指由样本统计量所构造的总体参数的估计区间。我们通常会说：95%的置信区间，这里的 95% 不能解释为概率，因为总体的真实值，要么落在我们划定的置信区间中，要么没有。95% 可以解释为：我们有 95% 的信心，认为总体的真实值会落在我们划定的区间内。或者说，进行 100 次独立的实验，大约有 95 次总体真实值会成功落在置信区间中。

在假设检验和区间估计中，我们都引用到了置信区间的概念，但是二者从理念上有本质的不同：

在假设检验中，我们先提出原假设，假设其为真。在得到结论时，我们通常会说：从已知的样本信息中，我们拥有（或者不拥有）足够的证据拒绝原假设。无法拒绝原假设，不代表原假设一定为真，只是我们已知的信息不足以拒绝它。假设检验以小概率原理为标准。

在区间估计中，我们利用样本信息推断总体参数，并划定一个区间范围。我们既没有提出一个假定为真的原假设，也没有运用到小概率原理。

# 什么时候用 t-test，什么时候用 z-test

知识点 1. 假设检验的解释

假设检验会假设原假设为真，我们抽样获得的统计量即会以原假设为真的前提下服从一定的抽样分布。

比如说：假设某事发生的概率为 0.52，我们抽样得到的概率会服从一定的分布，比如以 0.52 为均值的正态分布。

在抽样分布中，我们想知道真正得到的统计量发生的可能性，如果可能性非常小，比如我们得到的概率为 0.98，在以 0.52 为均值，且方差足够小的正态分布中，得到 0.98 的概率非常非常低，那么我们就有足够的信心拒绝原假设。

知识点 2. 假设检验的前提条件

在假设检验中，无论是 t-test 还是 z-test，都需要满足以下假设条件：

简单随机抽样
总体服从正态分布

这两个条件本质上是为了让抽样分布服从正态分布（在方差已知的情况下），当然，如果样本数量足够大，根据中心极限定理，我们可以假设抽样分布服从正态分布。

t-test 和 z-test 都属于假设检验，当统计量的分布（通常我们会对统计量做

# 描述 P 值

在密歇根大学的统计学课程中，一个学者对 P 值做出过精彩的解释，他说 P 值表示了一种惊讶程度。P 值越小，说明在原假设为真的情况下，我们观测到的结果或更极端情况发生的可能性越小，我们就越惊讶。

如果 P 值很小，说明原假设情况发生的概率很小，而如果出现了，根据小概率原理，我们就有理由拒绝原假设，P 值越小，我们拒绝原假设的理由越充分。

P 值要与 1-显著水平(a) 比较，假设显著水平为 95%，那么 1-95% = 0.05：

P＞0.05 不能否定原假设两组差别无显著意义

P＜0.05 可以否定原假设两组差别有显著意义

另外，在一些公司的笔试/面试环节还可能会问到 F-test（ANOVA）和 Chi-square test（卡方检验），需要面试者有一定的了解，本文不做详细介绍，有兴趣的同学可以按需学习。

MLE 和 MAP 作为常用的参数估计法，在面试过程中可能会被提问，在后面的章节中我们将围绕机器学习模型阐述二者之间的异同。秋招正在进行中，想要面试算法 / 数据分析岗位的同学，抓紧时间准备起来吧～

区间估计和假设检验是数据分析工作中常用的统计方法，自然也是各大厂数据分析师岗位笔试面试常考的重点。对于算法工程师来说，了解这些经典的统计学方法在工作中也很可能派上用场。在之前的文章2020 年算法 / 数据分析面试数学考点梳理（2）我们已经介绍过这一专题的部分内容。

力扣（LeetCode）：2020 年算法 / 数据分析面试数学考点梳理（2）zhuanlan.zhihu.com

本文将对几道常考的面试题进行剖析，对这部分内容做一些补充。

面试题 1. 浅谈区间估计和假设检验的区别

区间估计和假设检验最重要的区别是：区间估计是根据样本估计总体特征，而假设检验则利用了小概率事件原理。

知识点 1：小概率事件原理

小概率事件在一次试验中基本上不会发生。

知识点 2：假设检验基本思路

假设检验采用了反证法的思想，其思路是先对总体特征做出一个假设（比如总体的均值 = 3.5），再验证该假设是否有足够的证据成立，或者说，我们是否有充足的信心否定该假设。还是以均值为例，我们可以计算出样本的均值（比如样本均值为 10000），再判断在假设总体均值为 3.5 的情况下，一次抽样（样本数量充足）得到样本均值为 10000 的可能性有多大。在这个例子中，这种可能性是非常非常小的，因此我们有足够的信心否定之前做出的总体均值为 3.5 的假设。事实上，总体均值很可能是大于 3.5 的。

当然，上一段只是做一个举例，具体的假设检验步骤还需经过严谨的数学计算。

知识点 3：原假设和备择假设

在假设检验中，除了先做出一个我们认为对的假设（在上例中是假设总体均值 = 3.5）之外，我们往往还需设立一个与之相对立的假设。这个假设可以是总体均值 > 3.5，总体均值 ≠ 3.5 等等。我们管这个假设叫做备择假设(H1)，原先认定为真的假设叫做原假设 (H0)。

原假设往往是总体统计量 = 某个数值。备择假设可以是总体统计量 >、< 或者 ≠ 该数值，具体要根据实际问题选取。

知识点 4：参数估计的分类

参数估计是指在总体未知的情况下，使用样本估计总体的方法。参数估计可以分为点估计和区间估计，点估计是估计一个具体的数值（估计量），区间估计则是给出一个估计量可能出现的范围。

点估计的缺点是无法衡量估计的准确性，而区间估计则给定了一个区间范围，我们可以说有多少信心总体数据会出现在该范围内。

面试题 2. 简述假设检验的流程

确立原假设和备择假设
构造检验统计量（在这一步中，要根据数据特征确立检验方法）
计算统计量的具体值
确定显著性水平和拒绝域
验证统计量的值是否落入拒绝域，若落入拒绝域，则拒绝原假设，否之接受原假设

面试题 3. 什么时候用 T 检验，什么时候用 Z 检验

在上一题中的步骤二里，我们需要根据数据特征确立检验方法。在假设检验里，我们通常需要样本数据服从以下假设：

简单随机抽样（确保样本数据的独立性）
足够大的采样（根据中心极限定理，确保样本数据服从正态分布）

当然，在极少数情况下，我们可以确信样本服从正态分布，则条件 2 可以适当放宽。

首先，T 检验和 Z 检验在样本数据服从正态分布的前提下才能使用，二者最重要的区别是：如果总体标准差已知就使用 Z 检验，如果总体标准差未知则用 T 检验。

关于这部分内容更详细的解释，你可以参考之前的文章。本文在这一题的标准答案下进行一个 补充说明：

为什么要使用 T 检验

在进行假设检验的时候，如果总体方差 / 标准差未知，在符合正态总体的前提下，我们可以通过样本的标准差来估计整体的标准差，在这种情况下，使用 T 分布计算统计量是更为精准的。如果从图像的角度观察，T 分布的「尾巴」相较正态分布更长，也就是说，T 分布有更强的容错率。

假设检验的实际应用

我们以一个实际问题来具体说明假设检验的实际用法和计算步骤：在 2017 年，某地区父母为汽车加装婴儿座椅的概率为 0.52，在今年，我们想要验证这一概率是否上涨？

步骤一：确立原假设和备择假设

很显然，在这一问题中我们设立原假设 H0 为概率没有上涨，即 P = 0.52

那么与之相对应的，H1 为概率上涨，即 P > 0.52，这是一个单边假设

步骤二：构造检验统计量

现在我们通过在今年进行简单独立抽样，在各个样本均匀充分的情况下，得到若干家长中安装婴儿座椅的概率为 0.56。

在这一问题中，我们可以认为：假如进行多次抽样，父母为汽车加装婴儿座椅的统计量是符合正态分布的。假设统计量为 Phat，那么：

[公式]

其中 P 为我们假设的概率 0.52，方差 = P*(1-P)，N为抽样数据量。

以上这部分内容为概率论基础知识，在此不做过多介绍。

通过以上分析可知，在这一问题中，样本统计量服从正态分布，方差已知，则使用 Z 检验。

步骤三：计算统计量

根据公式：

[公式]

得到统计量为 2.555

这一统计量可以解释为样本估算出的概率值和我们假设成立的概率值之间相隔了 2.555 个标准差

步骤四、五：设立区间并验证

设立置信区间为 95%。

在标准正态分布下，我们可以发现，大于 2.555 个标准差的图像面积，即在原假设为真的情况下，我们观测到的结果或更极端情况发生的可能性约为 0.0053。

其实我们上面描述的即为 P 值的定义，即 P value = 0.0053

显然 P value << 我们设立的置信值 0.05

即在原假设为真的情况下，我们得到的 0.56 发生的概率非常小，于是得到结论：拒绝原假设。

本文补充介绍了假设检验部分的知识，并辅以实际案例。对于数据分析工作的面试，文章中的知识点已经能够涵盖大部分情况了。假设检验用到了许多概率论和数理统计的大学知识，如果要真正深入理解这一内容，还需要拥有良好的基础和对分布图像的直观理解。另外，面试中还可能出现卡法检验和 F-test 的相关问题，这一类题目均是假设检验问题的延展，文章中不再过多介绍，有任何问题都可以在评论区留言。

https://zhuanlan.zhihu.com/p/95722543

本文作者：宫业奇

关于CBOW、Skip-gram、gloVe下面哪些是正确的
正确答案: A B C D 你的答案: C E (错误)
A： Skip-gram, CBOW可以良好的体现词与词之间的语义相似性
B：上述三种模型都通过无监督训练得到
C: gloVe模型除了可以体现出语义相似性，还可以体现词的全局统计特征
D: 使用negative sampling训练Skip-gram可以提高训练速度

在高斯混合分布中，其隐变量的含义是：
正确答案: D 你的答案: D (正确)
表示高斯分布的方差
表示高斯分布的均值
表示数据分布的概率
D: 表示数据从某个高斯分布中产生

以下哪个方法不能用来降维：
正确答案: D
PCA
IsoMap
LLE
D: LVW
PCA：主成分分析
LLE:局部线性嵌入
IsoMap：等度量映射
LVW(Las Vegas Wrapper)是一种典型的包裹式特征选择方法

使用标准卷积核对特征图进行卷积，卷积核的大小为11*11，输出的特征图层数为96。已知输入特征图大小为128*128*3，请问该卷积层的参数个数为：

11*11*3*96

关于颜色空间，下列说法正确的有？
正确答案: A C 你的答案: A (错误)
A： 24位RGB真彩色可以表示多达2^24种颜色
B： lab颜色空间和RGB颜色空间等价
C： CMYK颜色空间和RGB颜色空间等价
D：Alpha通道通常表示亮度

图像有很多种颜色空间，比如RGB,HSV,LAB等。请描述一下这RGB和LAB主要的差异。
RGB是以三基色相加组合而成的颜色系统，LAB空间是基于人眼识别的颜色系统。在LAB空间中，颜色距离更合理，距离大小能更好的反映颜色是否相近。

现有是三个稠密矩阵A,B,C，三者大小分别为m*n,n*p,p*q，且m<n<p<q，以下计算顺序中效率最高的是：
正确答案: B 你的答案: A (错误)
A: A(BC)
B: (AB)C
C: (AC)B
效率都相同

C明显不对
A(BC) 需要执行乘法运算次数p*p*n*q+n*n*m*q
(AB)C 需要执行乘法运算次数p*p*m*q+n*n*m*p
p小于q，m小于n
(AB)C 执行乘法运算次数更小，所以选B

关于hmm(隐马尔科夫模型)和crf(条件随机场)下列说法中正确的是
正确答案: A B C D E 你的答案: D (错误)、下面的说法都对
HMM是一种有向图，CRF是一种无向图
HMM只依赖于每一个状态和它对应的观察对象, 没有考虑上下文信息。
CRF是在给定需要标记的观察序列的条件下，计算整个标记序列的联合概率分布
HMM模型中存在两个假设：一是输出观察值之间严格独立，二是状态的转移过程中当前状态只与前一状态有关
CRF模型解决了标注偏置问题
以下哪些算法可以通过无监督学习方式进行训练？
正确答案: B D E 你的答案: E (错误)
A： SVM
B： K-Medoids
C：决策树
D: RBM
E: GAN
https://www.nowcoder.com/questionTerminal/50147f72e7ed4fabb68829f9e5853972
Bagging和Boosting的区别：

1）样本选择上：

Bagging：训练集是在原始集中有放回选取的，从原始集中选出的各轮训练集之间是独立的。

Boosting：每一轮的训练集不变，只是训练集中每个样例在分类器中的权重发生变化。而权值是根据上一轮的分类结果进行调整。

2）样例权重：

Bagging：使用均匀取样，每个样例的权重相等

Boosting：根据错误率不断调整样例的权值，错误率越大则权重越大。

3）预测函数：

Bagging：所有预测函数的权重相等。

Boosting：每个弱分类器都有相应的权重，对于分类误差小的分类器会有更大的权重。

4）并行计算：

Bagging：各个预测函数可以并行生成

Boosting：各个预测函数只能顺序生成，因为后一个模型参数需要前一轮模型的结果
http
100 - 继续。 101 - 切换协议。 110 重新启动标记答复。 120 服务已就绪，在 nnn 分钟后开始。 125 数据连接已打开，正在开始传输。 150 文件状态正常，准备打开数据连接。 200 - 确定。客户端请求已成功。 201 - 已创建。 202 - 已接受。 203 - 非权威性信息。 204 - 无内容。 205 - 重置内容。 206 - 部分内容。 211 系统状态，或系统帮助答复。 332 需要登录帐户。 350 请求的文件操作正在等待进一步的信息。 400 - 错误的请求。 401 - 访问被拒绝。 401.2 - 服务器配置导致登录失败。 401.3 - 由于 ACL 对资源的限制而未获得授权。 401.4 - 筛选器授权失败。 401.5 - ISAPI/CGI 应用程序授权失败。 401.7 – 访问被 Web 服务器上的 URL 授权策略拒绝。这个错误代码为 IIS 6.0 所专用。 403 - 禁止访问。 404 - 未找到。 405 - 用来访问本页面的 HTTP 谓词不被允许（方法不被允许） 406 - 客户端浏览器不接受所请求页面的 MIME 类型。 415 – 不支持的媒体类型。 417 – 执行失败。 423 – 锁定的错误。 425 无法打开数据连接。 450 未执行请求的文件操作。文件不可用（例如，文件繁忙）。 451 请求的操作异常终止：正在处理本地错误。 452 未执行请求的操作。系统存储空间不够。 500 - 内部服务器错误。

以下哪些分类器是线性分类器
正确答案: A D 你的答案: A B D (错误)
a:朴素贝叶斯
b:SVM
c:逻辑回归
d:感知机
e:XGBoost
随机森林采用bagging的集成思想，可以降低方差，对于boosting模型可以降低偏差

下列关于LDA(Latent Dirichlet Allocation) 描述中错误的是
正确答案: A 你的答案: C (错误)
A :每个文档都表示为词汇的dirichlet分布
b: 每个主题都表示为词汇的dirichlet分布
C: 每个文档都表示为主题的dirichlet分布
D: 求解LDA模型常用Gibbs采样

随机梯度下降方法不可以得到理论上的最优解