错题本 - 机器学习

最新推荐文章于 2024-08-15 23:00:41 发布

大白羊_Aries

最新推荐文章于 2024-08-15 23:00:41 发布

阅读量7.1k

点赞数 1

分类专栏：机器学习文章标签：机器学习

本文链接：https://blog.csdn.net/qq_38204302/article/details/104295327

版权

机器学习专栏收录该内容

2 篇文章 1 订阅

订阅专栏

下面关于支持向量机（SVM）的描述错误的是（）？
A 是一种监督式学习的方法
B 可用于多分类的问题
C 是一种生成式模型
D 支持非线性的核函数
答案：C

解析：
SVM是判别式模型

SVM
支持向量机（SVM）是一类按监督学习方式对数据进行二元分类的广义线性分类器，其决策边界是对学习样本求解的最大边距超平面。SVM使用铰链损失函数（hinge loss）计算经验风险（empirical risk）并在求解系统中加入了正则化项以优化结构风险（structural risk），是一个具有稀疏性和稳健性的分类器。SVM可以通过核方法（kernel method）进行非线性分类，是常见的核学习（kernel learning）方法之一。

有关机器学习算法，以下说法中不正确的是：（）
A 之所以说监督学习和无监督学习之间并不存在一条严格的界限，是因为很难客观地区分监督者给定的一个值是特征（feature）还是目标（target）。
B 当深度学习网络的最后一层是一个softmax分类器时，我们可以把网络的前面部分看成是一种表示学习（Representation Learning）的计算单元。
C 一个聚类算法将样本分成k个不同的聚类（cluster），从另一个角度说，这个聚类算法其实是为样本中的每一个实例提供了一种k维的one-hot编码方式
D 随机梯度下降（Stochastic Gradient Descent）算法是用小规模的样本近似估计梯度的方法，适合在大规模数据上训练深度神经网络，但在逻辑回归、SVM等算法中的作用很有限。
答案：D

解析：
随机梯度下降算法是常用的迭代算法，是对无法求得解析解的一种权宜之计，与数据规模无关

有两个样本点，第一个点为正样本,它的特征向量是(0,-1);第二个点为负样本,它的特征向量是(2,3),从这两个样本点组成的训练集构建一个线性SVM分类器的分类面方程是()
答案：x+2y=3

解析：
在这里插入图片描述
详细关于SVM的推导可以参阅【机器学习】支持向量机 SVM（非常详细）

统计模式分类问题中，当先验概率未知时，可以使用()
正确答案: A D
最小最大损失准则
最小误判概率准则
最小损失准则
N-P判决

解析：
最小损失准则中需要用到先验概率
最大最小损失规则主要就是使用解决最小损失规则时先验概率未知或难以计算的问题的。
在贝叶斯决策中，对于先验概率p(y)，分为已知和未知两种情况。

p(y)已知，直接使用贝叶斯公式求后验概率即可；
p(y)未知，可以使用聂曼-皮尔逊决策(N-P决策)来计算决策面。

以下描述错误的是：
正确答案: A B C
SVM是这样一个分类器，他寻找具有最小边缘的超平面，因此它也经常被称为最小边缘分类器（minimal margin classifier）。
在聚类分析当中，簇内的相似性越大，簇间的差别越大，聚类的效果就越差。
在决策树中，随着树中结点数变得太大，即使模型的训练误差还在继续减低，但是检验误差开始增大，这是出现了模型拟合不足的问题。
聚类分析可以看作是一种非监督的分类。

解析：
A 是最大间隔分类器
B 应该是聚类的效果越好
C 是过拟合的特征

已知两个一维模式类别的类概率密度函数为:

先验概率 $P (ω 1) = 0.6; P (ω 2) = 0.4$ ,则样本{x1=1.35,x2=1.45,x3=1.55,x4=1.65}各属于哪一类别?
正确答案: A B C D
X4 ∈ w2
X3 ∈ w1
X2 ∈ w1
X1 ∈ w1

解析：
比较后验概率 $p (ω ∣ x)$ , 哪个类的后验概率大 , 就属于哪个类。
因为 $x_i$ 都在 (1，2)范围内，
$p (w 1 ∣ x i) = p (x i ∣ w 1) * p (w 1) / p (x i) = 0.6 * (2 - x i) / p (x i)$
$p (w 2 ∣ x i) = p (x i ∣ w 2) * p (w 2) / p (x i) = 0.4 * (x i - 1) / p (x i)$
上面两等式相减，得：
$\delta = p(w1 | xi) - p(w2 | xi) = (1.6 - xi) / p(xi)$
所以，在上诉样本中，大于1.6的，属于 $w 2$ ，小于1.6的，属于 $w 1$

以下哪些模型是分类模型：（）
正确答案: A C D
KNN
Kmeans
Naïve Bayesian
Logistic Regression

解析：
KNN是分类算法，k-means是聚类算法

在某神经网络的隐层输出中，包含-1.5，那么该神经网络采用的激活函数不可能是（）
正确答案: A B C
sigmoid
tanh
relu

解析：
敢于常用激活函数的比较可参见常用激活函数的比较

输入图片大小为200×200，依次经过一层卷积（kernel size 5×5，padding 1，stride 2），pooling（kernel size 3×3，padding 0，stride 1），又一层卷积（kernel size 3×3，padding 1，stride 1）之后，输出特征图大小为：
答案：97

解析：
先说理论：

卷积向下取整，池化向上取整
计算公式为 $输出尺寸 = (输入尺寸 - f i l t e r 尺寸 + 2 * p a d d i n g ） / s t r i d e + 1$
研究过网络的话看到stride为1的时候，当kernel为 3 padding为1或者kernel为5 padding为2 一看就是卷积前后尺寸不变

计算过程：
一层卷积 (200 - 5+ 2)/2 + 1 = 99.5 向下取整，则输出为99x99
pooling (99 - 3 + 0)/1 + 1 = 97 输出为97x97
二层卷积 (97 - 3+ 2)/1 + 1 = 97 输出为97x97

Apriori算法在机器学习和数据挖掘中被广泛使用，已知有1000名球迷看奥运会，分为AB两队，每队各500人，其中A队有500人看了乒乓球比赛，同时又有450人看了羽毛球比赛；B队有450人看了羽毛球比赛，如下表所示：

那么乒乓球→羽毛球的支持度、置信度和提升度分别是（）
答案：0.9 0.9 1

解析：
先看理论

关于Apriori算法的内容可以详细参考 Apriori算法是什么？适用于什么情境？

下面讲计算
支持度 = 450 / 500 = 0.9
置信度 = 450 / 500 = 0.9
提升度 = 0.45 / (0.5 * 0.9) = 1

在测试一假设h时，发现在一包含n=1000个随机抽取样例的样本s上，它出现r=300个错误,计算Errors(h)的标准差（）
答案：0.0145

解析：
在这里插入图片描述

位势函数法的积累势函数K(x)的作用相当于Bayes判决中的()
正确答案: A D
后验概率
先验概率
类概率密度
类概率密度与先验概率的乘积

解析：
位势函数法的累积势函数是判别函数，关于势函数法的详细内容可参见势函数法

以下关于正则化的描述正确的是（）
正确答案: A B C D
正则化可以防止过拟合
L1正则化能得到稀疏解
L2正则化约束了解空间
Dropout也是一种正则化方法

解析：
关于L1，L2正则化一些详细的讨论可以参考： L1正则化与L2正则化

下列关于随机森林和Adaboost说法正确的是（）
正确答案: A C D
和adaboost相比，随机森林对错误和离群点更鲁棒
随机森林准确率不依赖于个体分类器的实例和他们之间的依赖性
随机森林对每次划分所考虑的属性数很偏感
Adaboost初始时每个训练元组被赋予相等的权重

解析：
随机森林，属于集成算法bagging的一种，由多个基分类器组合而成，最终的预测结果是多个基分类器结果的平均值（回归问题）/众数（分类问题).

关于随机森林和Adaboost的详细内容可参考：【机器学习】决策树（中）——Random Forest、Adaboost、GBDT （非常详细）其中有一部分关于 stacking 的内容可以参考：Stacking原理解析图

下列属于无监督学习的是：
正确答案: A
k-means
SVM
最大熵
CRF

解析：
这题目CRF是一个干扰项，CRF是条件随机场，主要用在语音识别和文本识别，前提，一个标记了的观察序列，计算需要验证的标签序列的联合概率。这里就有了标记集合和识别集合的概念，所以是监督室学习

关于支持向量机SVM,下列说法错误的是（）
正确答案: C
L2正则项，作用是最大化分类间隔，使得分类器拥有更强的泛化能力
Hinge 损失函数，作用是最小化经验分类错误
分类间隔为1/||w||，||w||代表向量的模
当参数C越小时，分类间隔越大，分类错误越多，趋于欠学习

解析：
C选项应该是 $\frac{2}{||w||}$
关于D选项，
在这里插入图片描述

类域界面方程法中，不能求线性不可分情况下分类问题近似或精确解的方法是？
正确答案: B
伪逆法
感知器算法
基于二次准则的H-K算法
势函数法

解析：
伪逆法：径向基（RBF）神经网络的训练算法，径向基解决的就是线性不可分的情况。
感知器算法：线性分类模型。
H-K算法：在最小均方误差准则下求得权矢量，二次准则解决非线性问题。
势函数法：势函数非线性。

以下可以有效解决过拟合的方法是：（）
正确答案: A D
增加样本数量
增加特征数量
训练更多的迭代次数
采用正则化方法

解析：
过拟合产生的原因主要有两个：样本数量少；模型复杂度高

下列层次聚类算法中，哪些更适合处理大数据？（）
正确答案: A B C D
CURE算法
ROCK算法
Chameleon算法
BIRCH算法

解析：
CURE算法：可以处理大型数据、离群点和具有非球形大小和非均匀大小的簇的数据。
ROCK算法：基于划分的k-means等算法是聚类大数据集的算法，它处理的数据对象仅限于数值型数据。
Chameleon（变色龙）算法：
在这里插入图片描述
BIRCH算法：BIRCH算法比较适合于数据量大，类别数K也比较多的情况。它运行速度很快，只需要单遍扫描数据集就能进行聚类。

在其他条件不变的前提下，以下哪种做法容易引起机器学习中的过拟合问题（）
正确答案: D
增加训练集量
减少神经网络隐藏层节点数
删除稀疏的特征 S
SVM算法中使用高斯核/RBF核代替线性核

解析：
D会使得模型更复杂，从而导致过拟合

下哪个模型属于生成模型（）
正确答案: D
支持向量机
逻辑回归
DNN
朴素贝叶斯

解析：
常见判别式模型有：线性回归，决策树，SVM，k近邻，神经网络
常见生成式模型有：HMM（隐马尔科夫模型），朴素贝叶斯，GMM（高斯混合模型），LDA（Latent Dirichlet Allocation 是一种文档主题生成模型，也称为一个三层贝叶斯概率模型）

生成模型
在概率统计理论中，生成模型是指能够随机生成观测数据的模型，尤其是在给定某些隐含参数的条件下。它给观测值和标注数据序列指定一个联合概率分布。在机器学习中，生成模型可以用来直接对数据建模（例如根据某个变量的概率密度函数进行数据采样），也可以用来建立变量间的条件概率分布。条件概率分布可以由生成模型根据贝叶斯定理形成。

下列时间序列模型中,哪一个模型可以较好地拟合波动性的分析和预测
正确答案: D
AR模型
MA模型
ARMA模型
GARCH模型

解析：
AR模型是一种线性预测，即已知N个数据，可由模型推出第N点前面或后面的数据（设推出P点），所以其本质类似于插值。

MA模型(moving average model)滑动平均模型，模型参量法谱分析方法之一。

ARMA模型(auto regressive moving average model)自回归滑动平均模型，模型参量法高分辨率谱分析方法之一。这种方法是研究平稳随机过程有理谱的典型方法。它比AR模型法与MA模型法有较精确的谱估计及较优良的谱分辨率性能，但其参数估算比较繁琐。

GARCH模型称为广义ARCH模型，是ARCH模型的拓展， GARCH对误差的方差进行了进一步的建模，特别适用于波动性的分析和预测。

影响聚类算法效果的主要原因有：（　）？
正确答案: A B C
特征选取
模式相似性测度
分类准则
已知类别的样本质量

解析：
D之所以不正确，是因为聚类是对无类别的数据进行聚类，不使用已经标记好的数据。

Nave Bayes是一种特殊的Bayes分类器,特征变量是X,类别标签是C,它的一个假定是:()
正确答案: C
各类别的先验概率P©是相等的
以0为均值，sqr(2)/2为标准差的正态分布
特征变量X的各个维度是类别条件独立随机变量
P(X|C)是高斯分布

解析：
朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法

关于朴素贝叶斯分类算法，描述正确的是：
正确答案: A
它假设属性之间相互独立
根据先验概率计算后验概率
对于给定的待分类项X={a1,a2,…,an}，求解在此项出现的条件下各个类别 yi 出现的概率，哪个P(yi|X)最大，就把此待分类项归属于哪个类别。
有最小错误率判断规则和最小风险判断规则

解析：
B 根据贝叶斯定理，由先验概率和条件概率计算后验概率
C 应该是输入一个样本，计算其属于K个类别的厚颜概率值，将厚颜概率值最大值作为输入样本的预测类别

在机器学习中，下列关于各算法对应的损失函数正确的是（）
正确答案: A B C D
最小二乘-Square loss
SVM-Hinge Loss
Logistic Regression-（log-Loss）
AdaBoost-指数损失函数

解析：

平方和损失函数(square loss): $L(yi,f(xi)) = (yi - f(xi))^2$ , 常用于回归中如最小二乘，权重可直接初始化，再通过梯度下降不断更新。
铰链损失函数(Hing loss): $L (m i) = m a x (0, 1 - m i (w))$ , 常用于SVM中
对数损失函数： $L (y i, f (x i)) = - l o g P (y i ∣ x i)$ , 常用于逻辑回归
指数损失函数： $L (y i, f (x i)) = e x p (- y i f (x i))$ , 主要应用于Boosting算法中

以下哪些机器学习算法可以不对特征做归一化处理：（）
正确答案: A D
随机森林
逻辑回归
SVM
GBDT

解析：
树模型一般不需要做归一化处理，做归一化处理的目的主要为了使同一特征的取值在同一量纲，降低方差太大带来的影响。树模型并不关心特征的具体取值，只关心特征取值的分布

以下方法属于集成方法的是（）
正确答案: A B C D
bagging
stacking
blending
boosting

解析：
在这里插入图片描述

关于K-means聚类算法，请回答以下问题：

K-means是有监督聚类还是无监督聚类？（2分）
写出将N个样本（X=(x1,…,xN)）聚成K类的K-means聚类算法的优化目标函数。（6分）
请用伪代码写出聚类过程。（8分）
假设样本特征维度为D，请描述Kmeans算法时间复杂度。（4分）

解析：
在这里插入图片描述

目前通过卷积神经网络进行检测的方法主要分为one-stage和two-stage，分别写出了解的对应的算法。在共性上两类检测算法有哪些差异？

解析：
One-stage：YOLO系列，SSD
Two-stage：R-CNN系列

Two-stage检测算法的共性，以Fast R-CNN为例，使用了复杂的网络用于每个候选区域的分类和回归；ROI pooling后的feature channels数目较大，导致内存消耗和计算量都比较大。

One-stage检测算法的共性，从网络结构上看只是多分类的RPN（区域生成）网络，相当于Fast R-CNN的第一阶段，因此one-stage主要的优势是速度快。其预测结果是从feature map回归出目标的位置及分类，有的也采用了anchor的概念。而two-stage对上述结果进行ROI pooling后会进一步细化，因此two-stage算法检测精度一般相对较高。还有一种观点是，two-stage的RPN部分相当于做了正负样本均衡，这也是two-stage检测效果相对较好的一个原因。one-stage算法对小目标检测效果较差，如果所有的anchor都没有覆盖到这个目标，那么这个目标就会漏检。如果一个比较大的anchor覆盖了这个目标，那么较大的感受野会弱化目标的真实特征，得分也不会高。two-stage算法中的ROI pooling会对目标做resize, 小目标的特征被放大，其特征轮廓也更为清晰，因此检测也更为准确

在Logistic Regression 中,如果同时加入L1和L2范数,会产生什么效果()
正确答案：A
可以做特征选择,并在一定程度上防止过拟合
能解决维度灾难问题
能加快计算速度
可以获得更准确的结果

解析：
L1正则化能得到稀疏解（部分系数等于0），即起到变量筛选的作用；L2正则化能使求解更优化，模型更稳，既防止过拟合

6×9的的方格中，起点的左下角，终点在右上角，从起点到终点，只能从下向上，从左向右走，问一共有多少种不同的走法。
正确答案：B
4200
5005
1005
以上都不正确

解析：
一共向右走6步，向上走9步，故取 $C_{15}^6$

SVM的效率依赖于()
正确答案： D
A.核函数的选择
B.核参数
C.软间隔参数
D.以上所有

在深度学习中，涉及到大量矩阵相乘，现在需要计算三个稠密矩阵A,B,C的乘积ABC，假设三个矩阵的尺寸分别为mn,np,p*q,且m<n<p<q，以下计算顺序效率最高的是
答案：A
(AB)C
A(BC)
(AC)B
所有效率相同

解析：
m x n 的矩阵乘以 n x p 的矩总共进行 m x p 次乘法（加法的代价远低于乘法的代价可忽略不计），故
A：需要 m x p + m x q 次乘法
B：需要 n x q + m x q 次乘法
去 m, n, p, q = 1, 2, 3, 4即可

一般我们建议将卷积生成对抗网络（convolutional generative adversarial nets）中生成部分的池化层替换成什么？
正确答案是：C
A 跨距卷积层(Strided convolutional layer)
B ReLU层
C 局部跨距卷积层(Fractional strided convolutional layer)
D 仿射层(Affine layer)

在输入层中有8个神经元的简单MLP模型中，隐藏层中有5个神经元和1个输出层神经元。隐藏输出层和输入隐层之间权重矩阵的大小是多少？
正确答案：D
A) [1×5] , [5×8]
B) [8×5] , [1×5]
C) [8×5] , [5×1]
D) [5×1] , [8×5]

解析：任何层1和层2之间的权重大小由 [层1的结点数 X 层2的结点数]

以下哪个选项是真的？
正确答案：A
A. LDA明确地尝试对数据类别之间的差异进行建模，而PCA没有。
B.两者都试图模拟数据类之间的差异。
C.PCA明确地试图对数据类别之间的差异进行建模，而LDA没有。
D.两者都不试图模拟数据类之间的差异。

下面不属于创建新属性的相关方法的是：（）。
正确答案：B
A . 特征提取
B . 特征修改
C . 映射数据到新的空间
D . 特征构造

将原始数据进行集成，变换，维度规约，数值规约是在以下哪个步骤的任务
正确答案：C
分类和预测
数据预处理
数据流挖掘
频繁模式挖掘

解析：
在这里插入图片描述

1、梯度爆炸问题是指在训练深度神经网络的时候，梯度变得过大而损失函数变为无穷。在RNN中，下面哪种方法可以较好地处理梯度爆炸问题？
正确答案：B
A 用改良的网络结构比如LSTM和GRUs
B 梯度裁剪
C Dropout
D 所有方法都不行

解析：
为了处理梯度爆炸问题，最好让权重的梯度更新限制在一个合适的范围。
LSTM可以解决梯度消失问题，但是不适于解决梯度爆炸问题

有许多种梯度下降算法，其中两种最出名的方法是l-BFGS和SGD。l-BFGS根据二阶梯度下降而SGD是根据一阶梯度下降的。
在下述哪些场景中，会更加偏向于使用l-BFGS而不是SGD？
场景1：数据很稀疏
场景2：神经网络的参数数量较少
正确答案：C
A 场景1
B 场景2
C 两种情况都是
D 都不会选择l-BFGS

下面哪种方法没办法直接应用于自然语言处理的任务？
正确答案是：D
A 去语法模型
B 循环神经网络
C 卷积神经网络
D 主成分分析(PCA)

对于非连续目标在深度神经网络的优化过程中，下面哪种梯度下降方法是最好的？
正确答案是：D
A SGD
B AdaGrad
C l-BFGS
D 拉格朗日松弛Subgradient method

解析：
优化算法无法作用于非连续目标

下面哪个叙述是对的？
1 Dropout对一个神经元随机屏蔽输入权重
2 Dropconnect对一个神经元随机屏蔽输入和输出权重
正确答案是：D
A 1是对的，2是错的
B 都是对的
C 1是错的，2是对的
D 都是错的

解析：
dropout的过程中，神经元被失活，在dropconnect的过程中，失活的是神经元之间的连接。所以dropout会使输入和输出权重都变为无效，而在dropconnect中，只有其中一种会被失活。

当训练一个神经网络来作图像识别任务时，通常会绘制一张训练集误差和交叉训练集误差图来进行调试。

在上图中，最好在哪个时间停止训练？
正确答案：C

解析：
最好在模型最完善之前提前终止

图片修复是需要人类专家来进行修复的，这对于修复受损照片和视频非常有帮助。下图是一个图像修复的例子。

现在人们在研究如何用深度学习来解决图片修复的问题。对于这个问题，哪种损失函数适用于计算像素区域的修复？
正确答案：C
A 负对数似然度损失函数(Negative-log Likelihood loss)
B 欧式距离损失函数(Euclidean loss)
C 两种方法皆可
D 两种方法均不可

反向传播算法一开始计算什么内容的梯度，之后将其反向传播？
正确答案是：A
A 各个输出的平方差之和
B 各个输入的平方差之和
C 各个权重的平方差之和
D 都不对

随着句子的长度越来越多，神经翻译机器将句意表征为固定维度向量的过程将愈加困难，为了解决这类问题，下面哪项是我们可以采用的？
正确答案是： B
A 使用递归单元代替循环单元
B 使用注意力机制(attention mechanism)
C 使用字符级别翻译(character level translation)
D 所有选项均不对

一个循环神经网络可以被展开成为一个完全连接的、具有无限长度的普通神经网络，这种说法是
正确答案是：A
A 正确的
B 错误的

解析：
循环神经元可以被认为是一个具有无限时间长度的神经元序列

Dropout是一种在深度学习环境中应用的正规化手段。它是这样运作的：在一次循环中我们先随机选择神经层中的一些单元并将其临时隐藏，然后再进行该次循环中神经网络的训练和优化过程。在下一次循环中，我们又将隐藏另外一些神经元，如此直至训练结束。
根据以上描述，Dropout技术在下列哪种神经层中将无法发挥显著优势？
正确答案是：C
A 仿射层
B 卷积层
C RNN层
D 均不对

解析：
Dropout对于循环层效果并不理想，你可能需要稍微修改一下dropout技术来得到良好的结果

当在内存网络中获得某个内存空间时，通常选择读取矢量形式数据而不是标量，这里需要的哪种类型的寻址来完成？
正确答案是：A
A 基于内容的寻址
B 基于位置的寻址
C 都不行
D 都可以

以下哪些是通用逼近器？
正确答案是：D
A Kernel SVM
B Neural Networks
C Boosted Decision Trees
D 以上所有

在CNN中使用1×1卷积时，下列哪一项是正确的？
正确答案是：D
A 它可以帮助降低维数
B 可以用于特征池
C 由于小的内核大小，它会减少过拟合
D 所有上述

在CNN，拥有最大池总是减少参数？
正确答案：错误

解析：
如果我们将池的大小设置为1，则参数将保持不变

使用深度学习的情感分析是多对一的预测任务
正确答案：对

解析：
这是因为从一系列单词中，你必须预测情绪是积极的还是消极的

对于二元分类问题，您会选择以下哪种架构？

正确答案：C
A 1 B 2 C 任何一个 D 都不用

解析：
我们可以使用一个神经元作为二值分类问题的输出或两个单独的神经元

下列关于现有的分词算法说法错误的是（）
正确答案 :A
A 基于统计的分词方法是总控部分的协调下，分词子系统获得有关词、句子等的句法和语义信息来对分词歧义进行判断
B 由于在上下文中，相邻的字同时出现的次数越多，就越有可能构成一个词，统计语料中的频度可以判断是否构成一个词
C 统计分词系统将串频统计和串匹配结合起来，既发挥匹配分词切分速度快、效率高的特点，又利用了无词典分词结合上下文识别生词、自动消除歧义的优点
D 中文分词的准确度，对搜索引擎结果相关性和准确性有相当大的关系

解析：
基于人工智能技术的中文分词方法，通常包括三个部分：分词子系统、句法语义子系统和总控部分。在总控部分的协调下，分词子系统可以获得有关词、句子等的句法和语义信息来对分词歧义进行判断，即它模拟了人对句子的理解过程

下列关于语言模型的说法错误的是（）
正确答案 :B
A 基于知识的语言模型通过非歧义的规则解释歧义过程
B 基于知识的语言模型是经验主义方法
C 基于语料库的统计分析模型需要从大规模的真实文本中发现知识
D 基于语料库的统计模型更加注重用数学的方法

有一家医院为了研究癌症的诊断，对一大批人作了一次普查，给每人打了试验针，然后进行统计，得到如下统计数字：
①这批人中，每1000人有5个癌症病人；
②这批人中，每100个正常人有1人对试验的反应为阳性，
③这批人中，每100个癌症病人有95人对试验的反应为阳性。
通过普查统计，该医院可开展癌症诊断。
现在某人试验结果为阳性，根据最小风险贝叶斯决策理论，将此患者预测为患癌症的风险概率为（）。
假设将正常人预测为正常人和将癌症患者预测为癌症患者的损失函数均为0，将癌症患者预测为正常人的损失函数为3，将正常人预测为癌症患者的损失函数为1.
正确答案 :C
A 75.5%
B 32.3%
C 67.7%
D 96.9%

如当前样本集合D中第K类样本所占的比列为P(k)（k= 1,2,3,…,y），则样本的信息熵最大值为（）
正确答案 :C
A 1
B 0.5
C Log2(y)
D log2(P(y))

解析：
$-\sum_{i=1}^np_ilog_2p_i$

当 $p_i$ 相等时，信息熵最大

下列关于数据降维方法说法正确的是（）
正确答案 :ABCD
A MDS要求原始空间样本之间的距离在降维后的低维空间中得以保持
B PCA采用一组新的基来表示样本点，每个基向量都是原来基向量的线性组合，通过使用尽可能少的新基向量来表出样本，从而实现降维
C 核化主成分分析为先将样本映射到高维空间，再在高维空间中使用线性降维
D 流形学习是一种借助拓扑流形概念的降维方法，采用的思想是"邻域保持"

下列属于常用的分箱方法的是（）
正确答案 :ABC
A 统一权重法
B 统一区间法
C 自定义区间法
D 平均值法

解析：
链接：https://www.nowcoder.com/questionTerminal/822465b7d2824dde9de51b72588835e4?toCommentId=436924
来源：牛客网

分箱：分箱方法是一种简单常用的预处理方法，通过考察相邻数据来确定最终值。所谓“分箱”，实际上就是按照属性值划分的子区间，如果一个属性值处于某个子区间范围内，就称把该属性值放进这个子区间所代表的“箱子”内。把待处理的数据（某列属性值）按照一定的规则放进一些箱子中，考察每一个箱子中的数据，采用某种方法分别对各个箱子中的数据进行处理。在采用分箱技术时，需要确定的两个主要问题就是：如何分箱以及如何对每个箱子中的数据进行平滑处理。

分箱的方法：有4 种：等深分箱法、等宽分箱法、最小熵法和用户自定义区间法。

统一权重，也成等深分箱法，将数据集按记录行数分箱，每箱具有相同的记录数，每箱记录数称为箱子的深度。这是最简单的一种分箱方法。

统一区间，也称等宽分箱法，使数据集在整个属性值的区间上平均分布，即每个箱的区间范围是一个常量，称为箱子宽度。

用户自定义区间，用户可以根据需要自定义区间，当用户明确希望观察某些区间范围内的数据分布时，使用这种方法可以方便地帮助用户达到目的。

用parzen窗法估计类概率密度函数时，窗宽过窄导致波动过大的原因是（）
正确答案 :BC
A窗函数幅度过小
B窗函数幅度过大
C窗口中落入的样本数过少
D窗口中落入的样本数过多

下面关于决策规则思想方法说法错误的是（）
正确答案 : D
A基于最小错误率的贝叶斯决策是利用概率论中的贝叶斯公式，得出使得错误率最小的分类规则
B基于最小风险的贝叶斯决策是引入了损失函数，得出使决策风险最小的分类
C最大最小决策是在类先验概率未知的情况下，考察先验概率变化对错误率的影响，找出使最小贝叶斯奉献最大的先验概率，以这种最坏情况设计分类器
D序贯分类方法只考虑分类造成的损失，先用一部分特征分类，然后逐步加入性特征以减少分类损失，同时平衡总的损失，以求得最优效益

解析：
序贯分类，采用树形分类，由粗到细

树形分类器则采用序次分类的办法,每次选择不同的特征和不同的决策规则划分出不同的类别,直至识别出所有的类别

树型分类器可分为逐类树形分类器和逐步树形分类器两大类。逐类树形分类器每一步识别出一类地物,各步中使用的特征、决策规则和阈值可以不同,也可以相同。逐步树形分类器是先将地物分为大类,再对大类逐渐细分的办法,直至达到“树梢”

下面说法正确的是（）
正确答案：D
A当训练数据较多时更容易发生过拟合
B给定n个数据点，一半用于训练，另一半用于测试，则训练误差和测试误差之间的差别随着n的增加而增加
CBoosting的一个优点是不会过拟合
D在AdaBoost算法中，所有被错分的样本的权重更新比例相同

考虑两个分类器：1）核函数取二次多项式的SVM分类器和 2）没有约束的高斯混合模型（每个类别为一个高斯模型）。对R2空间上的点进行两类分类。假设数据完全可分，SVM分类器中不加松弛惩罚项，并且假设有足够多的训练数据来训练高斯模型的协方差。下面说法正确的是：
正确答案 :A
A 这两个分类器的VC维相同
B SVM的VC维大于高斯混合模型的VC维
C SVM的VC维小于高斯混合模型的VC维
D 这两个分类器的VC维没有关系