机器学习常见面试题

特征工程

常用数据类型:结构化数据(类似于表)、非结构化数据(文本 图像 音频 视频…)

1.为什么要对数值类型的特征做归一化?

可以将所有特征都统一到一个相同的特征区间内。

线性函数归一化(映射到0-1之间)

零均值归一化(使分布为标准正态分布)

在进行梯度下降时,如果特征量岗不一样,需要迭代多次 才可能找到最优解。

归一化线性回归、逻辑回归、支持向量机、 神经网络等模型 但对于决策树模型则并不适用,例如以 C4.5 为例,决策树在进行节点分裂第主要依据数据集D关于特征x的信息增益比,而信息增益比跟特征是否经过归一化无关,因为归一化不会改变样本在特征x上的信息增益。

2.在对数据进行预处理时,应该怎么处理类别型特征?

首先类别型特征主要指性别男女,血型,只在有限选项内取值的特征。

序号编码(序号编码通常用于处理类别间具有大小关系的数据)

独热编码(虫热编码通常用于处理类别间不具有大小关系的特征 例如血型),对于高维度数据可以采用稀疏向量来节省空间、可以配合特征选择来降低维度(高维度数据使得两点之间的距离很难得到有效的衡量、在逻辑回归中参数的数量会随着维度的增高而增加,容易引发过拟合问题、通常只有部分维度是对分类、预测有帮助,因此可以考虑配合特征选择来降低维度 )。

二进制编码(二进制编码本质上是利用二进制对 ID 进行晗希映射,最终得到 0/1 特征向量 ,且维数少于独热编码,节省了存储空间)

3.如何处理高维组合特征?

  • 基于原有的特征进行降维(PCA等)

  • 基于原有的特征进行筛选(分析label和特征的关系从而筛选特征)

4.如何有效找到组合特征?

可以基于决策树找到特征组合的方法,每一条从根节点到叶节点的路径都可以看成 种特征组合的方式。

5.有哪些文本表示模型?各有什么优缺点?

  • 词袋模型

    最基础的文本表示就是词袋模型。顾名思义,将每篇文章看成一袋子词,并忽略每个词出现的顺序,然后每篇文章就可以表示成由单词组成的长向量,向量中每维表示一个单词,而该维对应的权重则反映了这个词在原文中的重要性。

    常用 TF-IDF 来计算权重。

在这里插入图片描述

  • N-gram模型

    通常可以将连续出现的n个词(n<=N)组成的词组(N-gram)也作为一个单独的特征放到向量表示中去,构成N-gram模型。另外,同一个词可能会有多种词性变化,却有相似的含义。在实际应用中,一般会对单词进行词干抽取(Word Stemming)处理,即将不同词性的单词统一称为同一词干的形式。

  • 主题模型

    用于发现有代表的主题。

  • 词嵌入与深度学习模型

    核心思想是将每个词都映射为低维空间上的稠密向量。

    在传统的浅层机器学习模型中,一个好的特征工程往往可以带来算法效果的显著提升 而深度学习模型正好为我们提供了一种自动地进行特征工程的方式,模型中的每个隐层都可以认为对应着不同抽象层次的特征 。

6.WordtoVec是如何工作的?

可以通过神经网络语言模型来训练所有单词对应的词向量。

https://blog.csdn.net/weixin_40771521/article/details/103893982

  • CBOW

    ​ 模型的训练输入是某一个特征词的上下文相关的词对应的词向量,而输出就是这特定的一个词的词向量。比如下面这段话,我们的上下文大小取值为4,特定的这个词是"Learning",也就是我们需要的输出词向量,上下文对应的词有8个,前后各4个,这8个词是我们模型的输入。由于CBOW使用的是词袋模型,因此这8个词都是平等的,也就是不考虑他们和我们关注的词之间的距离大小,只要在我们上下文之内即可。

    img

    这样我们这个CBOW的例子里,我们的输入是8个词向量,输出是所有词的softmax概率(训练的目标是期望训练样本特定词对应的softmax概率最大),对应的CBOW神经网络模型输入层有8个神经元,输出层有词汇表大小个神经元。隐藏层的神经元个数我们可以自己指定。通过DNN的反向传播算法,我们可以求出DNN模型的参数,同时得到所有的词对应的词向量。这样当我们有新的需求,要求出某8个词对应的最可能的输出中心词时,我们可以通过一次DNN前向传播算法并通过softmax激活函数找到概率最大的词对应的神经元即可。

  • Skip-gram

    Skip-Gram与CBOW相反,它是用中心词预测其上下文的词

    滑动窗口skip_window=C/2,num_skips=C

在这里插入图片描述

CBOW 和Skip-gram都可以表示威由输入层(Input)、映射层(Project on)和输出层(Output)组成的神经网络。

LDA和Word2Vec的区别和联系:

在这里插入图片描述

7.在图像分类任务中,训练数据不足会带来什么问题?如何缓解数据量不足带来的问题?

训练数据不足容易过拟合,即在训练样本上模型效果不错,但在测试集上表现不佳。

方法:

  • 基于模型的方法 :主要采用降低拟合风险的措施,包括简化模型、添加正约束集成学习、droupout

  • 基于数据的方法:通过数据增强操作,如随机旋转 平移 缩放 填充 左右翻转等、添加噪声颜色变换

模型评估

评估指标的局限性

1.准确率的局限性?

准确率是指分类正确的样本占总样本个数的比例。

在这里插入图片描述

缺陷:当不同类别的样本比例非常不均衡时,占比大的类别往往成为影响准确率最主要的因素。

改进:可以使用平均准确率(每个类别下样本准确率的算术平均)作为模型评估的指标。

2.准确率和召回率的权衡?

精确率:分类正确的正样本个数占分类器判定为正样本个数的比例。

召回率:分类正确的正样本个数占真正的正样本个数的比例。

F1 score: 精准率和召回率的调和平均值,其定义为:

在这里插入图片描述

可以绘制P-R曲线。

3.平方根误差的意外?

一般情况下, RMSE 能够很好地反映回归模型预测值与真实值的偏离程度 但在实际问题中,如果存在个别偏离程度非常大的离群点( Outlier )时, 即使离群点数 非常少 也会让 RMSE 指标变得很差。

ROC曲线

1.什么是ROC曲线?

ROC曲线的横坐标为假阳性率(FPR),纵坐标真阳性率(TPR)。

在这里插入图片描述

2.如何绘制ROC曲线?

根据真阳性率和假阳性率来绘制,还要动态调整截断率。
在这里插入图片描述

3.如何计算AUC?

顾名思义, AUC指的是 ROC 曲线下的面积大小 该值能够量化地反映基于 ROC 曲线衡量出的模型性能。计算 AUC 值只需要沿着ROC 横轴做积分就可以了。AUC越大说明分类器越可能把真正的正样本排在前面分类性能越好。

4.ROC曲线相比P-R曲线有什么特点?

当正负样本的分布发生变化时,ROC曲线的形状能基本保持不变,而P-R曲线的形状一般会发生比较剧烈的变化。故ROC的使用场景更多,被广泛运用于排序推荐广告等领域。

余弦距离的应用

1.什么场景下使用余弦相似度而不用欧氏距离?

余弦相似度衡量的是维度间取值方向的一致性,注重维度之间的差异,不注重数值上的差异,而欧氏度量的正是数值上的差异性。

所以在对两个文本进行文本相似度比较时,应采用余弦相似度。越接近1,越相似。“相同时为1, 正交时为0, 相反时为-1”。
在这里插入图片描述

2.余弦距离是否是一个严格定义的距离?

不是。距离需要满足正定性,对称性,三角性。余弦距离不满足三角性。

模型评估的方法

1.在模型评估过程中,有哪些主要的验证方法,他们的有缺点是什么?

  • holdout

    将原始样本随机划分成训练集和验证集两部分,例如70%的样本用于训练,30%的样本用于验证,包括绘制ROC曲线,计算精确率和召回率等指标来评估模型的性能。

    缺点:在验证集上计算出来的最后的评估指标和原始分组有很大的关系。

  • 交叉检验

    k-fold交叉验证:首先将全部样本划分成k个大小中等的样本子集,依次遍历这k个子集,每次把当前子集作为验证集,其余所有子集作为训练集,进行模型的训练和评估;最后把评估指标的平均值作为最终的评估指标。

    留一验证:每次留下1个样本作为验证集,其余所有样本作为训练集。样本总数为n,依次对n个样本进行遍历,进行 n次验证 再将评估指标求平均值得到最终的评估指标。

  • 自助法

    自助法是基于自助采用法的检验方法。对于总数为n的样本集合,进行n次有放回的随机抽样,得到大小为n的训练集。n次采样过程中,有的样本会被重复采样,有的样本没有抽出过,将这些没有被抽出的样本作为验证集,进行模型验证,这就是自助法的验证过程。

超参数调优

1.超参数有哪些调优方法

网格搜索

随机搜索

贝叶斯优化算法

过拟合和欠拟合

1.在模型评估的过程中,过拟合和欠拟合具体是指什么现象?

过拟合是指模型对于训练数据拟合呈过当的情况,反映到评估指标上,就是模型在训练集的表现很好,但在测试集和新数据上的表现较差。

欠拟台指的是模型在训练和预测时表现都不好的情况。

2.降低欠拟合和过拟合风险的方法

降低过拟合风险:

  • 增加数据集(直接增加实验数据或者通过数据增强方法来扩充训练数据)。
  • 降低模型复杂度。
  • 添加正则化方法。添加正则约束。比如添加L2正则化约束(参数中各个元素的平方之和)。这样在优化原来的目标函数的同事,也能避免权值过大带来的过拟合风险。
  • 集成学习方法。

降低欠拟合风险:

  • 添加新特征
  • 增加模型复杂度
  • 减小正则化系数

经典算法

支持向量机

1.在空间上线性可分的两类点,分别向SVM分类的超平面上做投影,这些点在超平面上仍然是线性可分的吗?

https://blog.csdn.net/qq_38422157/article/details/88728953

逻辑回归

1.逻辑回归和线性回归的异同点

相同点:

  • 两个都是线性模型,线性回归是普通线性模型,逻辑回归是广义线性模型。
  • 都是采用极大似然估计来估计参数。
  • 可以用梯度下降法

不同点:

  • 一个是分类问题,一个是回归问题
  • 线性回归优化的是均方差(最小二乘法),而逻辑回归优化的是似然函数(交叉熵)

2.当使用逻辑回归处理多标签分类问题时,有哪些常见的做法,分别应用于那些场景,有啥联系?

可以采用多项逻辑回归(Softmax Regression)

在这里插入图片描述

当样本可能属于多个标签的情况时,我们可以训练k个二分类的逻辑回归分类器。第i个分类器用以区分每个样本是否归属第i类,训练该分类器时,需要把标签重新整理为“第i类标签”和“非第i类标签”两类。通过这样的方法,我们就解决了每个样本可能拥有多个标签的情况。

决策树

1.决策树有哪些常用的启发函数

  • ID3——最大信息增益
  • C4.5——最大信息增益比
  • CART——最大基尼指数(Gini )

在这里插入图片描述

在这里插入图片描述

2.如何对决策树进行剪枝?

决策树剪枝有两种方法。

  • 预剪枝

    预剪枝对于何时停止决策树的生长有以下集中方法。

    • 当树到达一定深度的时候,停止树的生长。
    • 当到达当前节点的样本数量小于某个阈值的时候,停止树的生长。
    • 计算每次分裂时对测试集的准确率的提升,当小于某个阈值的时候,不再进行扩展。

    预剪枝具有思想直接算法简单、效率高等特点。适合解决大规模问题。但是预剪枝存在一定局限性,有欠拟合的风险。

  • 后剪枝

    后剪枝的核心思想是让算法生成一棵完全生长的决策树,然后从最底层向上计算是否剪枝。剪枝过程将子树删除,用一个叶子结点替代,该结点的类别同样按照多数投票的原则进行判断。同样地,后剪枝也可以通过在测试集上的准确率进行判断,如果剪枝过后准确率有所提升,则进行剪枝 相比于预剪枝,后剪枝方法通常可以得到泛化能力更强的决策树,但时间开销会更大。

降维

PCA最大方差理论

PCA概念:主成分分析,好处是使要分析的数据的维度降低了,但是数据的主要信息还能保留,并且,这些变换后的维度两两不相关。(在数据压缩消除冗余和数据噪音消除等领域都有广泛的应用

PCA目标:最大化投影方差,也就是让数据在主轴上的投影方差最大(数据越分散越好)。

对于给定的一组数据点{V1, V2, V3,…,Vn},其中所有向量均位列向量,中心化后的表示为{X1,X2,X3,…Xn}={V1-μ, V2-μ, V3-μ,…,Vn-μ}。其中μ = 原数据点的均值。我们知道,向量内积在几何上表示为一个向量投影到第二个向量的长度,因此向量xi在w(单位方向向量)上的投影坐标…

在这里插入图片描述

在这里插入图片描述

协方差:

对于二维样本集合,求出的协方差其实就是方差,协方差是方差的一种特殊情况,意义和方差一样,都是反映各元素的离散程度。

对于二维样本集合,求出的协方差反映的是两维度之间的相关性。

对于三维样本集合,求出的是各个维度总体的相关性,针对各维度之间的关系,所以二维以上计算协方差,用的是协方差矩阵。

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

PCA的最小平方误差理论

1.PCA求解的其实是最佳投影方向,集一条直线,这与数学中线性回归问题的目标不谋而合,能否熊回归的角度定义PCA的目标并相应的求解问题?

在这里插入图片描述

线性判别分析LDA

1.中心思想:最大化类间距离 最小化类内距离。(类内方差小,类间距离大)

在这里插入图片描述

2.PCA和LDA的区别和联系

从目标出发,PCA选的是投影后数据方差的最大方向。由于它是无监督的,因刺激PCA假设房差越大,信息量越多,用主成分来表示原始数据可以去除冗余的维度。而LDA选择的是投影后类内方差小,类间方差大的方向。其用到了类别信息,为了找到数据具有判别性的维度,使得原始数据在这些方向投影后,不同类别尽可能区分开。

非监督学习

K均值聚类

1.k-均值算法步骤

2.K均值算法的优缺点是什么,如何对其进行调优?

缺点:

  • 受初值和离群点的影响,每次的结构不稳定、结果通常不是去全局最优而是局部最优。
  • 无法很好地解决蔟分布差别比较大的情况(比如一类是另一类样本数量的100倍)。

优点:

  • 计算复杂度接近线性(O(NKt)),其中N是数据对象的数目,K是聚类的蔟数。
  • 尽管算法是经常以局部最优结束,但一般情况下达到的局部最优已经可以满足聚类的要求。

调优:

  • 数据归一化和离群点处理。

    K均值聚类本质上是一种基于欧氏距离度量的数据划分方法,均值和方差较大的维度对数据的聚类结果产生决定性的影响,因此需要对数据进行归一化。

  • 合理选择K值

    多选择几次K值。

3.针对K均值算法的缺点,有哪些改进的模型?

  • K-means++

    主要是改进初始值的选择。

在这里插入图片描述

  • ISODATA算法
    在这里插入图片描述
机器学习中的隐变量

什么是隐变量呢?让我们先简单的说一下,我们估计算法在做的一些事情,我们要做的其实就是估算出概率模型的参数,概率模型是什么呢?你可以简单把它理解成一个分布,甚至说可以把它理解成一个函数,我们的估计算法就是为了求解出这些函数的参数而存在的。这边借用知乎上的一个例子,希望能够解释清楚隐变量是什么。

如果你站在这个人旁边,你目睹了整个过程:这个人选了哪个袋子、抓出来的球是什么颜色的。然后你把每次选择的袋子和抓出来的球的颜色都记录下来(样本观察值),那个人不停地抓,你不停地记。最终你就可以通过你的记录,推测出每个袋子里每种球颜色的大致比例。并且你记录的越多,推测的就越准(中心极限定理)。然而,抓球的人觉得这样很不爽,于是决定不告诉你他从哪个袋子里抓的球,只告诉你抓出来的球的颜色是什么。这时候,“选袋子”的过程由于你看不见,其实就相当于是一个隐变量。隐变量在很多地方都是能够出现的。现在我们经常说的隐变量主要强调它的“latent”。所以广义上的隐变量主要就是指“不能被直接观察到,但是对系统的状态和能观察到的输出存在影响的一种东西”。所以说,很多人在研究隐变量。以及设计出各种更优(比如如可解释、可计算距离、可定义运算等性质)的隐变量的表示。

Jensen不等式(凸函数):

  • E[f(X)]>=f(E[X])

如果EM算法收敛,能否保证收敛到全局最大值?

结论:EM算法可以保证收敛到一个稳定点,但是却不能保证收敛到全局的极大值点,因此它是局部最优的算法,当然,如果我们的优化目标l(theat,theta_l) 是凸的,则EM算法可以保证收敛到全局最大值,这点和梯度下降法这样的迭代算法相同。

在这里插入图片描述

https://zhuanlan.zhihu.com/p/40991784

高斯混合模型(GMM)

高斯混合模型也是一种常见的聚类算法,与K均值算法类似,同样用了EM算法进行迭代计算。高斯混合模型假设每个蔟的数据都符合高斯分布(又称正太分布),当前数据呈现的分布就是各个蔟的高斯分布叠加在一起的结果。

高斯混合模型的核心思想是,假设数据可以看做从多个高斯分布中生成出来的。在该假设下,每个单独的分模型都是标准高斯模型,其均值μi和方差vari都是待估计的参数。此外,每个分模型都还有一个参数πi,可以理解为权重或生成数据的概率。

高斯混合模型的公式:

在这里插入图片描述

高斯混合模型是一个生成式模型。

自组织映射神经网络(SOM)

自组织映射神经网络是无监督学习方法中一类重要方法,可以用于聚类、高维可视化、数据压缩、特征提取等多种用途。

1.自组织映射神经网络是如何工作的?它与K均值算法有何区别?

自组织映射神经网络本质上是一个两层的神经网络,包含输入层和输出层(竞争层)。输入层模拟感知外界输入信息的视网膜,输出层模拟做出响应的大脑皮层。输出层中神经元的个数通常是聚类的个数,代表每一个需要聚成的类。训练是采用“竞争学习”的方式,每个输入的样例在输出层中找到一个和它最匹配的节点,称为激活节点,也叫warning neuron,紧接着用随机梯度下降法鞥新激活节点的参数,同时,和激活节点邻近的点也根据它们与激活节点的远近而适当更新参数。
在这里插入图片描述

假设输入空间是D维,输入模式为x = {xi, i = 1,… D}, 输入单元i和神经元j在之间在计算层的连接权重为w={wi,j, j = 1,…N, i = 1,…,D},其中N是神经元的总数。自组织映射神经网络的自组织学习过程可以归纳为以下几个子过程:

  • 初始化。所有的连接权重都用小的随机值进行初始化。
  • 竞争。神经元计算每一个输入模式各自的判别函数值,并宣布具有

概率图模型

概率图模型的联合概率分布

贝叶斯网络的一个基本要求是图必须是有向无环图。

1.根据有向图写出贝叶斯的联合概率分布

2.根据无向图写出马尔可夫网络的联合概率分布?

在这里插入图片描述

概率图表示

1.解释朴素贝叶斯模型的原理,并给出概率图模型表示

朴素贝叶斯模型还是通过预测指定样本属于特定类别的概率P(yix

)来预测该样本所属的类别。

在这里插入图片描述

2.解释最大熵模型,并给出概率图模型的表示

熵:信息的不确定新越大,熵越大。

最大熵模型指导思想:在满足约束条件的模型集合中选取熵最大的模型,即不确定性最大的模型。
在这里插入图片描述

当x服从均匀分布时对应的熵最大,也就是不确定性最高。

给定离散随机变量x和y上的条件概率分布p(y|x),定义在条件概率分布上的条件上为:

在这里插入图片描述

最大熵模型就是要学习到合适的分布P(y|x),是的条件熵H(P)的取值最大、在对训练数据集一无所知的情况下,最大上模型认为P(y|x)是符合均匀分布的。那么

生成式模型与判别式模型

1.常见的概率图模型中,哪些是生成式 模型,哪些是判别式模型?

假设可观察到的变量集合为X,需要预测的变量集合为Y,其他的变量集合为Z。

生成式模型是对联合概率分布P(X,Y,Z)进行建模,在给定观测集合X的条件下,通过计算边缘分布来得到对变量集合Y的推断,即:

在这里插入图片描述

判别式模型是直接对条件概率分布P(Y,Z|X)进行建模,然后消掉无关变量Z就可以得到对变量集合Y的预测。

在这里插入图片描述

常见的概率图模型有朴素贝叶斯、最大熵模型贝叶斯网络、隐马尔可夫模型、条件随机场、pLSA、LDA等。

生成式模型:朴素贝叶斯、贝叶斯网络、pLSA、LDA等模型都是先对联合概率分布进行建模,然后再通过计算边缘分布得到对变量的预测。

https://www.jianshu.com/p/4ef549eb0ad4

判别式模型:最大上模型、条件随机场。

优化算法

1.无约束优化问题的优化方法有哪些?

经典的优化算法可以分为直接法和迭代法两大类。

直接法:顾名思义,就是直接能够给出优化问题最优解的方法,但不是万能的。直接法要求目标函数需要满足两个条件,第一L()是凸函数.若L()是凸函数,那么theta*是最优解的充分必要条件是在theta处的梯度为0。第二个条件是有闭式解。(岭回归——L2+均方差)。

迭代法:迭代的修正对最优解的估计。

​ 迭代法又可分为一阶法和二阶法两大类。一阶法就是对函数进行一阶泰勒展开,一般加上正则项;一阶法也称为梯度下降法,梯度就是目标函数的一阶信息。二阶法就是对函数进行二阶泰勒展开,二阶法也成为牛顿法。

2.L1正则化和稀疏性

稀疏性:模型的很多参数为0,相当于对模型进行了一次特征选择,只留下一些比较重要的特征,提高模型的泛化能力,降低过拟合的可能。

3.L1正则化使得模型参数具有稀疏性的原理是什么?

L1正则化在原点处会得到极小值点,因此会收敛到这个点,故会产生稀疏解。而L2只要目标函数的梯度不为0,一般不会收敛到这个点。

采样

概念:采样是从特定的概率分布中抽取对应的样本点。

1.说一些你所知道的通用采样方法或采样策略,简单描述他们的主要思想以及具体操作步骤。

几乎所有的采样方法都是以均匀分布随机数作为基本操作。均匀分布随机数一般用线性同余法来产生。

前向神经网络

1.为什么Sigmoid和Tanh激活函数会导致梯度消失的现象?

Sigmoid激活函数将数组z映射到(0, 1)区间。当z很大是,f(z)趋近于1;当z很小时,f(z)趋近于0.其梯度在z很大或者很小

时都会趋近于0.造成梯度消失现象。Tanh同理。

2.Relu激活函数相对于Sigmoid和Tanh激活函数的优点是什么?有什么局限性?如何改进?

优点:

  • Sigmoid和Tanh函数均需要激活指数,复杂度高,而Relu只需要一个阈值即可得到激活值。
  • Relu的非饱和性可以有效解决梯度消失的问题,提供相对宽的激活边界。
  • Relu的单侧抑制提供了网络的稀疏表达能力。

局限性:训练过程中会导致神经元的死亡问题。由于函数f(z) = max(0, z)导致负梯度在进过Relu单元时被置为0且在之后再也不被任何数据激活,即流经该神经元的梯度永远为0,不对任何数据产生响应。

解决:LeakyRulu

3.写出多层感知机的平方误差和交叉熵损失函数

在这里插入图片描述
在这里插入图片描述

https://blog.csdn.net/u014313009/article/details/51043064

4.平方误差损失函数和交叉熵损失函数分别适合什么场景?

https://blog.csdn.net/u014313009/article/details/51043064

一般来说,平方损失函数更适合输出为连续,并且最后一层不含Sigmoid或softmax激活函数的神经网络。交叉熵则更适合二分类或多分类的场景。

softmax求导:

https://zhuanlan.zhihu.com/p/105722023?ivk_sa=1024320u

https://blog.csdn.net/u014313009/article/details/51045303

在这里插入图片描述

5.为什么droupout可以一直过拟合?他的工作原理和实现。

droupout是指在深度网络的训练中,以一定的概率随机地“临时”丢弃一部分神经元节点。具体来说,droupout作用于每份小批量训练数据,犹豫期随机丢弃部分神经元的机制,相当于每次迭代都在训练不同结构的神经网络。类似于,droupout可被认为是一种使用的大贵吗深度神经网络的模型集成方法。

对于包含N个神经元节点的网络,在droupout的作用下可看作为2的n次方个模型的集成。
在这里插入图片描述

6.批量归一化

在这里插入图片描述

在这里插入图片描述

循环神经网络

1.处理文本数据时,循环神经网络与前馈神经网络相比有什么特点?

相比于卷积神经网络等前馈神经网络,循环神经网络由于具备对序列顺序信息的刻画能力,往往能得到更准确的结果。

在这里插入图片描述在这里插入图片描述

2.循环神经网络为什么会出现梯度消失或者梯度爆炸?有哪些改进方案?

循环神经网络模型的求解可以通过BPTT(基于时间的反向传播)算法实现。

https://zhuanlan.zhihu.com/p/181444678

3.在循环神经网络中能否使用ReL作为激活函数?

可以,但是需要对矩阵的初值做一定限制。否则容易引发数值问题。

在这里插入图片描述

只要W不是单位矩阵,梯度还是会出现消失或者爆炸。

为什么卷积神经网络不会?

因为在卷积神经网络中每一层的参数权重W是不同的,并且在初始化时是独立同分布的,因此可以相互抵消,在多层之后一般不会出现严重的数值问题。

4.LSTM是如何实现长短期记忆功能的?

与传统的循环神经网络相比,LSTM仍然是基于xt和ht-1来计算的ht,不过对内部的结构进行了更加精心的设计,加入了输入们it、遗忘门ft和输出们ot和一个内部记忆单元ct。输入门控制当前计算的新状态以多大程度更新到记忆单元中;遗忘门控制前一步记忆单元中的信息有多大程度被遗忘掉;输出门控制当前的输出有多大程度取决于当前记忆单元。
在这里插入图片描述

https://www.jianshu.com/p/4b4701beba92

5.Seq2Seq模型引入注意力机制是为了解决什么问题?为什么选用双向的循环神经网络模型?

集成学习

1.集成学习分哪几种?有何异同?

Boosting:

Boosting方法训练基分类器时采用串行的方式,各个基分类器之间有依赖。它的基本思路是将基分类器层层叠加,在每一层训练的时候,对前一层基分类器分错的样本,给予更高的权重。测试时,根据各层分类器的加权的最终结果。

Bagging:

Bagging与Boosting的串行训练方式之间无强依赖,可以进行并行训练。如随机森林(集体投票决策)

偏差:由于分类器的表达能力有限导致的系统性错误,表现在训练不收敛。方差是由于分类器对样本分布过于敏感,导致在训练样本较少时,产生过拟合。

Boosting方法是通过逐步聚焦于基分类器分错的样本,减少集成分类器的偏差。Bagging方法是采取分而治之的策略,通过对训练样本多次采样,并分别训练出多个模型,然后做综合,来减小集成分类器的方差。

2.集成学习的基本步骤,并举例几个集成学习的例子?

集成学习一般可分为一下三个步骤:

  • 找到误差相互独立的基分类器。
  • 训练基分类器
  • 合并基分类器结果

(合并基分类器的方法有voting和stacking两种。前者是用投票的方式,将获得最多选票的结果作为最终的结果。后者使用串行的方式,把前一个基分类器的结果输出到下一个分类器,将所有基分类器的输出结果相加。)

Adaboost核心思想:在训练基分类器时,对分类正确的样本降低了权重,对分类错误的样本升高或者保持权重不变。在模型融合的过程中,也根据错误率对基分类器进行加权融合。错误率低的分类器拥有更大的话语权。

梯度提升树(GBDT):每棵树学的是之前所有树结论和的残差。
在这里插入图片描述

3.常用的基分类器是什么?

决策树。

原因:

  • 决策树的表达能力和泛化能力,可以通过剪枝快速调整。
  • 决策树可以方便地将样本权重整合到训练中。(适合boosting)
  • 决策树是一种不稳定的学习器((随机性)不稳定是指样本的扰动会对决策树的结果产生较大的影响,适用于bagging)。

4.可否将随机森林的基分类器,由决策树替换成线性分类器或K- 近邻?

随机森林属于Bagging类的集成学习。Bagging的主要好处是集成后的分类器的方差,比基分类器的方差小。Bagging所采用的基分类器,最好是本身对样本分布较为敏感的(所谓不稳定的分类器)。这样Bagging才有用武之地。线性分类器和K-近邻都是较为稳定的分类器,本身方差就不大,所以以他们为基分类器使用Bagging并不能在原有基分类器的基础上获得更好的表现,甚至可能因为Bagging的采样,而导致他们在训练中更难收敛,从而增大了集成分类器的偏差。

5.什么是偏差和方差?

在有监督学习中,模型的泛化误差主要来源于两个方面——偏差和方差。

偏差是指由所有采样得到的大小为m的训练数据集训练出的所有模型输出的平均值和真实模型输出的偏差。(偏差通常是由于我们对学习算法错了错误的假设所导致的)

方差指的是由所有采样得到的大小为m的训练数据集训练出的所有模型的输出的方差。(方差通常是由于模型的复杂度相对于训练样本数m过高导致的)

6.如何从减小方差和偏差的角度解释Boosting和Bagging的原理?

Bagging能够提高弱分类器性能的原因是降低了方差,Boosting能够提升弱分类器性能的原因是降低了偏差。

7.梯度提升决策树的基本原理。

GBDT是Boosting中的一大类算法,其基本思想是根据当前模型的损失函数的负梯度信息来训练新加入的弱分类器,然后将训练好的弱分类器以累加的形式结合到现有模型中。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值