机器学习简单练习题 - 选择&简答(带答案)

选择题(单选&多选)

 

机器学习发展的主要历史阶段有(多选)

  1. 知识推理期

  2. 知识工程期

  3. 浅层学习

  4. 深度学习

 

下列不属于机器学习的主要流派的是

  1. 符号主义

  2. 联想主义(联结主义)

  3. 进化主义

  4. 行为类推主义

 

下列属于数据挖掘任务的是(多选)

  1. 异常检测

  2. 关联分析

  3. 聚类

  4. 分类

 

关于机器学习算法,下列说法错误的是

  1. 常见的无监督学习算法有聚类和关联分析

  2. 常见的监督学习算法包括回归分析和统计分类

  3. 线性回归和逻辑回归属于无监督学习算法(监督学习算法)

  4. 逻辑回归属于分类算法

 

下列说法正确的是

  1. 样本就是根据研究目的所确定的要研究的事物的全体

  2. 推断是推断结果从概率上的确认

  3. 统计分析分为描述性统计和推断性统计

  4. 描述统计分为参数估计和假设检验

答案:

  1. 总体:根据你的研究目的,所确定的要研究的事物的全体

  2. 推断可靠性:是推断结果从概率上的确认

D.    推断统计:分为参数估计和假设检验

 

关于统计基础,下列说法错误的是

  1. 输入空间就是输入𝑋,它的可能取值的集合

  2. 联合概率分布描述了多个随机变量的概率分布

  3. 超参数是在训练过程中学习到的参数(超参数是在模型中学习不到的,需要我们预先定义)

  4. 损失函数越小,模型就越好

 

下列属于连续概率分布的是(多选)

  1. 均匀分布

  2. 正态分布

  3. 卡方分布

  4. 二项分布

 

下列说法错误的是

  1. 混淆矩阵是一个表格,通常用于描述分类模型的性能

  2. 判别分析包括线性判别分析和二次判别分析

  3. 高维数据降维就是把高维空间的特征,通过删减或变换转为低维空间特征

  4. PCA是奇异值分解(主成分分析)

 

下列属于高维数据降维算法的是(多选)

  1. 拉普拉斯特征映射

  2. 奇异值分解

  3. 线性判别分析

  4. 局部线性嵌入

 

下列关于特征构建,说法错误的是

  1. 特征构建是从原始数据中构建新的特征

  2. 在实际应用中,特征构建全部可以机器完成(特征构建需要手工构建)

  3. 单列变量的方法可以分成离散型变量和连续型变量

  4. 二值化最终得到的值是0或者1

 

收集数据的常用的途径有(多选)

  1. 从专业数据公司购买

  2. 免费的公开数据

  3. 系统生成、人工标记和交换的数据

  4. 私自收集的非公开的敏感数据

 

下列关于决策树,说法正确的是

  1. 熵越大,有用信息越少,确定性越大

  2. 决策节点是经过分支到达的类

  3. 要选择信息增益最小的属性

  4. 在决策树里面,用熵来表示样本集的不纯度

答案:

  1. 熵越大,代表所含的有用信息越多,它的不确定性就越大。

  2. 叶节点:经过分支到达的类

  3. 要选择信息增益最大的属性

 

泛化误差的估计方法主要有(多选)

  1. 训练误差估计

  2. 结合模型复杂度

  3. 估计统计上限

  4. 使用检验集

 

构建决策树时,使用的代码可以是(多选)

  1. DecisionTreeClassifier

  2. DecisionTreeClassifier(criterione=’gini’)

  3. DecisionTreeClassifier(criterione= ‘entropy’)

  4. DecisionTreeClassifier(criterione=’ID3’)

 

对于分类效果评价,不能使用的方法和指标是

  1. 准确率(accuracy)

  2. 精确率(precision)

  3. 召回率(recall)

  4. 决策树 (decision tree)

 

对于二分类问题,可能出现的分类情况有(多选)

  1. 样本为正例,被分类为正例,称为真正类(true positive,TP)

  2. 样本为正例,被分类为反例,称为假反类(false negative,FN)

  3. 样本为反例,被分类为正例,称为假正类(false positive,FP)

  4. 样本为反例,被分类为反例,称为真反类(true negative,TN)

 

集成分类算法有(多选)

  1. 装袋法

  2. 提升法

  3. 蜂群算法

  4. 文本分类

 

下列代码,错误的是

  1. 装袋法可以用BaggingClassifier

  2. 提升法可以用AdaBoostClassifier

  3. GBDT可以用DecisionTreeClassifier

  4. 随机森林可以用RandomForestClassifier

 

下列属于聚类方法的分类的是(多选)

  1. 基于划分的方法(PARTITIONING-BASED CLUSTERING)

  2. 基于层次的方法 (HIERARCHICAL-BASED CLUSTERING)

  3. 基于模型的方法(Model-based Clustering)

  4. 基于密度的方法(Density-based Clustering)

 

下列不属于基于划分的方法里的算法的是

  1. k-均值算法

  2. k-medoids

  3. k-prototype

  4. DBSCAN

 

下列不属于聚类算法的内部指标的是:

  1. Jaccard Coefficient(外部)

  2. 欧氏距离

  3. 曼哈顿距离

  4. 切比雪夫距离

 

下列代码,可以用于构造并初始化k-均值模型的是

  1. KMeans(n_clusters=8)

  2. DBSCAN(n_clusters=8)

  3. MiniBatchKMeans(n_clusters=8)

  4. SpectralCoclustering (n_clusters=8)

 

基于密度的聚类算法有:(多选)

  1. DBSCAN

  2. OPTICS

  3. DENCLUE

  4. BIRCH

 

DBSCAN 算法的两个参数是:(多选)

  1. 半径 𝜀

  2. 密度阈值 MinPts

  3. 聚类中心k

  4. 参数r

 

下列说法错误的是

  1. 层次聚类的核心思想就是按照层次把数据划分到不同层的簇,从而形成一个树形的聚类结构

  2. 层次聚类可以是自顶向下的聚合聚类(层次聚类可以是自底向上的聚合聚类)

  3. 层次聚类可以是自顶向下的分裂聚类

  4. 自顶向下的聚类比较少


名词解释

 

标准差:

描述的是样本集合的各个样本点到均值的距离分布,描述的是样本集的分散程度。

 

方差:

估计值与其期望值的统计方差。这些波动越大,方差就越大。

 

正则化:

正则化是为了避免过拟合的手段。正则化为了结构风险最小化,在经验风险上加一个正则化项或惩罚项,正则化项一般是模型复杂度的单调递增函数,模型越复杂,正则化值越大。

 

损失函数:

损失函数是关于模型计算结果f(x)和样本实际目标结果Y的非负实值函数,用它解释模型在每个样本实例上的误差损失函数的值越小,说明预测值与实际值越接近,即模型的拟合效果越好。损失函数反应了模型预测结果和实际结果之间的差距,理解损失函数的本质有助于对算法进行优化

 

L1正则化:

损失函数的惩罚项。指权值向量𝑤中各个元素的绝对值之和。

 

L2正则化

损失函数的惩罚项。指权值向量𝑤中各个元素的平方和然后再求平方根。

 

参数(parameter):

就是在训练过程中学习到的参数。

 

超参数(hyperparameter):

是在模型中学习不到的,需要我们预先定义的。机器学习经常讲的:模型的调参,其实就是指的是调整超参数。

 

过拟合:

过度拟合训练数据。也叫高方差(variance)。

 

剪枝:

用来缩小决策树的规模。剪枝包括预剪枝和后剪枝。

 

聚类:聚类分析用于对未知类别的样本进行划分,将它们按照一定的规则划分成若干个类族,把相似(距高相近)的样本聚在同一个类簇中, 把不相似的样本分为不同类簇,从而揭示样本之间内在的性质以及相互之间的联系规律。

 


 简答题

 

请举出3个有监督机器学习的算法。

逻辑回归、决策树、随机森林、支持向量机、朴素贝叶斯、线性回归

 

请列出机器学习的一般流程

定义分析目标、收集数据、数据预处理、数据建模、模型训练、模型评估、模型应用

 

请举出3个常见的数据概率分布

均匀分布、正态分布、t分布、卡方分布、F-分布、二项分布、0-1分布、Poisson分布

 

什么是交叉校验? 常用的交叉校验方法有哪些?

在一般情况下将数据集随机且分为训练集、验证集和测试集三部分。

其中训练集用来训练模型,验证集用于训练过程中模型的验证和选择,如果有多个模型,选择其中最小预测误差的模型,而测试集用于对最终训练完成的模型进行评估。

交叉验证分为以下几种:HoldOut检验、简单交叉检验、k折交叉检验、留一交叉检验。

 

数据降维有哪些常用的方法?

主成分分析、线性判别分析、奇异值分解、局部线性嵌入、拉普拉斯特征映射。

 

 LDA的基本思想是什么? 

线性判别分析的原理是对于给定的训练集,设法将样本投影到一条直线上,使得同类的投影点尽可能接近。

LDA的思想可以用一句话概括,就是“投影后类内方差最小,类间方差最大”。我们要将数据在低维度上进行投影,投影后希望每一种类别数据的投影点尽可能的接近,而不同类别的数据的类别中心之间的距离尽可能的大。

 

可视化在机器学习过程中的作用有什么?

在特征选择时,可以通过可视化分析的方法辅助来找到合适的特征集合。

可视化分析在机器学习的数据预处理、模型选择、参数调优等阶段也同样发挥重要作用。

在数据建模的过程中,容易辨别出数据的分布、异常、参数取值对模型性能的影响等。

 

线性回归与逻辑回归之间的差别有什么?

  1. 线性回归只能用于回归问题,逻辑回归虽然名字叫回归,但是更多用于分类问题

  2. 线性回归要求因变量是连续性数值变量,而逻辑回归要求因变量是离散的变量

  3. 线性回归要求自变量和因变量呈线性关系,而逻辑回归不要求自变量和因变量呈线性关系

  4. 线性回归可以直观的表达自变量和因变量之间的关系,逻辑回归则无法表达变量之间的关系

 

 请举出5个常用的可视化的图表 

折线图,散点图,箱图,饼图,气泡图

 

 决策树的3个结构是什么 

  1. 决策节点:就是在样本的一个属性上进行的划分

  2. 分支:对决策节点进行划分的输出

  3. 叶节点:经过分支到达的类

 

ID3算法,C4.5算法,CART 算法对于分支属性选取,使用的方法分别是?

ID3算法选择能获得最高信息增益的分支属性,然后进行分裂

C4.5 算法使用了信息增益率作为度量

CART 算法:在分支处理中,它的度量指标是Gini指数

 

AUC与ROC的关系是什么?

ROC曲线下的面积称为AUC,AUC值越大,表示分类模型的预测准确性越高,ROC曲线越光滑,一般代表过拟合现象越轻

 

在聚类分析中, 样本之间的距离常用计算方法有哪些?

常用的距离度量有欧式距离、曼哈顿距离、切比雪夫距离和明可夫斯基距离等。

 

BIRCH算法的主要优点?

聚类速度快,只需要一遍扫描训练集就可以建立CF Tree,CF Tree的增删改都很快。

 

 请列出5种聚类方法的分类,并举出相应的算法。 

1. 基于划分的方法(Partitioning-based Clustering)

比如,你的数据是一堆散点(先画个散点图)。

首先确定散点要分成多少类,然后挑选几个点作为初始中心点,再根据启发式算法不断迭代,达到“类内点距离足够近、类外点距离足够远”的效果。

最经典的算法就是k-均值算法。

 

2. 基于层次的方法 (Hierarchical-based Clustering)

分为:凝聚(Agglomerative,自下而上的方法)和分裂(Divisive,自上而下的方法)。

核心思想:把所有的样本点都看成一个类,然后计算每个点之间的欧氏距离,然后把距离最近的两个点聚成一个新类,然后继续计算新类之间的距离,不停迭代,直到达到聚类数的要求。

主要算法:BIRCH算法、CURE算法等。

 

3. 基于密度的方法(Density-based Clustering)

核心思想:用一些圆圈,把一堆散点给分开。需要定义两个参数:一个是圈的半径,另一个是圈里最少要有多少个点。

主要算法:最经典的算法是DBSCAN算法,OPTICS算法等等。

 

4. 基于网格的方法(Grid-based Clustering)

核心思想:把数据空间划分成单元(cell)的网格结构。所有的处理都是以单个的单元为对象的,计算每个单元的密度。根据预设的阈值,来判断每个网格单元是不是高密度单元。

因为这个算法和样本数量无关,只和网格单元数量有关,所以这种方法在处理大数据集时效率很高。

 

5. 基于模型的方法(Model-based Clustering)

核心思想:用概率或者神经网络训练的方式,去寻找合适的分类,提高了模型灵活性。

概率模型主要是指:概率生成模型。最经典的方法是高斯混合模型GMM。

神经网络模型主要指:SOM(Self Organized Maps)。

 


 

综合题

 

请论述机器学习与人工智能,数据挖掘的关系。

机器学习是人工智能的一个分支,作为人工智能核心技术和实现手段,通过机器学习的方法解决人工智能面对的问题。

数据挖掘是从大量的业务数据中挖掘隐藏、有用的、正确的知识促进决策的执行。

数据挖掘的很多算法都来自于机器学习,并在实际应用中进行优化。

数据挖掘和机器学习的交集越来越大,机器学习成为数据挖掘的重要支撑技术。

 

请举例说明3个机器学习常用的应用领域。

艺术创作:

Neural Doodle项目就是使用了深度神经网络,让大家可以通过合成的方式绘制一幅非常厉害的画。原理:使用卷积神经网络,提取模板图片中的绘画特征,然后对你画的涂鸦图片再进行处理,最后合成一张新的图画。

金融领域:

信用评分,检测欺诈,股票市场的趋势预测

网络安全领域:

垃圾邮件检测,入侵检测,恶意软件检测       

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值