选择题(单选&多选)
机器学习发展的主要历史阶段有(多选)
-
知识推理期
-
知识工程期
-
浅层学习
-
深度学习
下列不属于机器学习的主要流派的是
-
符号主义
-
联想主义(联结主义)
-
进化主义
-
行为类推主义
下列属于数据挖掘任务的是(多选)
-
异常检测
-
关联分析
-
聚类
-
分类
关于机器学习算法,下列说法错误的是
-
常见的无监督学习算法有聚类和关联分析
-
常见的监督学习算法包括回归分析和统计分类
-
线性回归和逻辑回归属于无监督学习算法(监督学习算法)
-
逻辑回归属于分类算法
下列说法正确的是
-
样本就是根据研究目的所确定的要研究的事物的全体
-
推断是推断结果从概率上的确认
-
统计分析分为描述性统计和推断性统计
-
描述统计分为参数估计和假设检验
答案:
-
总体:根据你的研究目的,所确定的要研究的事物的全体
-
推断可靠性:是推断结果从概率上的确认
D. 推断统计:分为参数估计和假设检验
关于统计基础,下列说法错误的是
-
输入空间就是输入𝑋,它的可能取值的集合
-
联合概率分布描述了多个随机变量的概率分布
-
超参数是在训练过程中学习到的参数(超参数是在模型中学习不到的,需要我们预先定义)
-
损失函数越小,模型就越好
下列属于连续概率分布的是(多选)
-
均匀分布
-
正态分布
-
卡方分布
-
二项分布
下列说法错误的是
-
混淆矩阵是一个表格,通常用于描述分类模型的性能
-
判别分析包括线性判别分析和二次判别分析
-
高维数据降维就是把高维空间的特征,通过删减或变换转为低维空间特征
-
PCA是奇异值分解(主成分分析)
下列属于高维数据降维算法的是(多选)
-
拉普拉斯特征映射
-
奇异值分解
-
线性判别分析
-
局部线性嵌入
下列关于特征构建,说法错误的是
-
特征构建是从原始数据中构建新的特征
-
在实际应用中,特征构建全部可以机器完成(特征构建需要手工构建)
-
单列变量的方法可以分成离散型变量和连续型变量
-
二值化最终得到的值是0或者1
收集数据的常用的途径有(多选)
-
从专业数据公司购买
-
免费的公开数据
-
系统生成、人工标记和交换的数据
-
私自收集的非公开的敏感数据
下列关于决策树,说法正确的是
-
熵越大,有用信息越少,确定性越大
-
决策节点是经过分支到达的类
-
要选择信息增益最小的属性
-
在决策树里面,用熵来表示样本集的不纯度
答案:
-
熵越大,代表所含的有用信息越多,它的不确定性就越大。
-
叶节点:经过分支到达的类
-
要选择信息增益最大的属性
泛化误差的估计方法主要有(多选)
-
训练误差估计
-
结合模型复杂度
-
估计统计上限
-
使用检验集
构建决策树时,使用的代码可以是(多选)
-
DecisionTreeClassifier
-
DecisionTreeClassifier(criterione=’gini’)
-
DecisionTreeClassifier(criterione= ‘entropy’)
-
DecisionTreeClassifier(criterione=’ID3’)
对于分类效果评价,不能使用的方法和指标是
-
准确率(accuracy)
-
精确率(precision)
-
召回率(recall)
-
决策树 (decision tree)
对于二分类问题,可能出现的分类情况有(多选)
-
样本为正例,被分类为正例,称为真正类(true positive,TP)
-
样本为正例,被分类为反例,称为假反类(false negative,FN)
-
样本为反例,被分类为正例,称为假正类(false positive,FP)
-
样本为反例,被分类为反例,称为真反类(true negative,TN)
集成分类算法有(多选)
-
装袋法
-
提升法
-
蜂群算法
-
文本分类
下列代码,错误的是
-
装袋法可以用BaggingClassifier
-
提升法可以用AdaBoostClassifier
-
GBDT可以用DecisionTreeClassifier
-
随机森林可以用RandomForestClassifier
下列属于聚类方法的分类的是(多选)
-
基于划分的方法(PARTITIONING-BASED CLUSTERING)
-
基于层次的方法 (HIERARCHICAL-BASED CLUSTERING)
-
基于模型的方法(Model-based Clustering)
-
基于密度的方法(Density-based Clustering)
下列不属于基于划分的方法里的算法的是
-
k-均值算法
-
k-medoids
-
k-prototype
-
DBSCAN
下列不属于聚类算法的内部指标的是:
-
Jaccard Coefficient(外部)
-
欧氏距离
-
曼哈顿距离
-
切比雪夫距离
下列代码,可以用于构造并初始化k-均值模型的是
-
KMeans(n_clusters=8)
-
DBSCAN(n_clusters=8)
-
MiniBatchKMeans(n_clusters=8)
-
SpectralCoclustering (n_clusters=8)
基于密度的聚类算法有:(多选)
-
DBSCAN
-
OPTICS
-
DENCLUE
-
BIRCH
DBSCAN 算法的两个参数是:(多选)
-
半径 𝜀
-
密度阈值 MinPts
-
聚类中心k
-
参数r
下列说法错误的是
-
层次聚类的核心思想就是按照层次把数据划分到不同层的簇,从而形成一个树形的聚类结构
-
层次聚类可以是自顶向下的聚合聚类(层次聚类可以是自底向上的聚合聚类)
-
层次聚类可以是自顶向下的分裂聚类
-
自顶向下的聚类比较少
名词解释
标准差:
描述的是样本集合的各个样本点到均值的距离分布,描述的是样本集的分散程度。
方差:
估计值与其期望值的统计方差。这些波动越大,方差就越大。
正则化:
正则化是为了避免过拟合的手段。正则化为了结构风险最小化,在经验风险上加一个正则化项或惩罚项,正则化项一般是模型复杂度的单调递增函数,模型越复杂,正则化值越大。
损失函数:
损失函数是关于模型计算结果f(x)和样本实际目标结果Y的非负实值函数,用它解释模型在每个样本实例上的误差损失函数的值越小,说明预测值与实际值越接近,即模型的拟合效果越好。损失函数反应了模型预测结果和实际结果之间的差距,理解损失函数的本质有助于对算法进行优化
L1正则化:
损失函数的惩罚项。指权值向量𝑤中各个元素的绝对值之和。
L2正则化:
损失函数的惩罚项。指权值向量𝑤中各个元素的平方和然后再求平方根。
参数(parameter):
就是在训练过程中学习到的参数。
超参数(hyperparameter):
是在模型中学习不到的,需要我们预先定义的。机器学习经常讲的:模型的调参,其实就是指的是调整超参数。
过拟合:
过度拟合训练数据。也叫高方差(variance)。
剪枝:
用来缩小决策树的规模。剪枝包括预剪枝和后剪枝。
聚类:聚类分析用于对未知类别的样本进行划分,将它们按照一定的规则划分成若干个类族,把相似(距高相近)的样本聚在同一个类簇中, 把不相似的样本分为不同类簇,从而揭示样本之间内在的性质以及相互之间的联系规律。
简答题
请举出3个有监督机器学习的算法。
逻辑回归、决策树、随机森林、支持向量机、朴素贝叶斯、线性回归
请列出机器学习的一般流程
定义分析目标、收集数据、数据预处理、数据建模、模型训练、模型评估、模型应用
请举出3个常见的数据概率分布
均匀分布、正态分布、t分布、卡方分布、F-分布、二项分布、0-1分布、Poisson分布
什么是交叉校验? 常用的交叉校验方法有哪些?
在一般情况下将数据集随机且分为训练集、验证集和测试集三部分。
其中训练集用来训练模型,验证集用于训练过程中模型的验证和选择,如果有多个模型,选择其中最小预测误差的模型,而测试集用于对最终训练完成的模型进行评估。
交叉验证分为以下几种:HoldOut检验、简单交叉检验、k折交叉检验、留一交叉检验。
数据降维有哪些常用的方法?
主成分分析、线性判别分析、奇异值分解、局部线性嵌入、拉普拉斯特征映射。
LDA的基本思想是什么?
线性判别分析的原理是对于给定的训练集,设法将样本投影到一条直线上,使得同类的投影点尽可能接近。
LDA的思想可以用一句话概括,就是“投影后类内方差最小,类间方差最大”。我们要将数据在低维度上进行投影,投影后希望每一种类别数据的投影点尽可能的接近,而不同类别的数据的类别中心之间的距离尽可能的大。
可视化在机器学习过程中的作用有什么?
在特征选择时,可以通过可视化分析的方法辅助来找到合适的特征集合。
可视化分析在机器学习的数据预处理、模型选择、参数调优等阶段也同样发挥重要作用。
在数据建模的过程中,容易辨别出数据的分布、异常、参数取值对模型性能的影响等。
线性回归与逻辑回归之间的差别有什么?
-
线性回归只能用于回归问题,逻辑回归虽然名字叫回归,但是更多用于分类问题
-
线性回归要求因变量是连续性数值变量,而逻辑回归要求因变量是离散的变量
-
线性回归要求自变量和因变量呈线性关系,而逻辑回归不要求自变量和因变量呈线性关系
-
线性回归可以直观的表达自变量和因变量之间的关系,逻辑回归则无法表达变量之间的关系
请举出5个常用的可视化的图表
折线图,散点图,箱图,饼图,气泡图
决策树的3个结构是什么
-
决策节点:就是在样本的一个属性上进行的划分
-
分支:对决策节点进行划分的输出
-
叶节点:经过分支到达的类
ID3算法,C4.5算法,CART 算法对于分支属性选取,使用的方法分别是?
ID3算法选择能获得最高信息增益的分支属性,然后进行分裂
C4.5 算法使用了信息增益率作为度量
CART 算法:在分支处理中,它的度量指标是Gini指数
AUC与ROC的关系是什么?
ROC曲线下的面积称为AUC,AUC值越大,表示分类模型的预测准确性越高,ROC曲线越光滑,一般代表过拟合现象越轻
在聚类分析中, 样本之间的距离常用计算方法有哪些?
常用的距离度量有欧式距离、曼哈顿距离、切比雪夫距离和明可夫斯基距离等。
BIRCH算法的主要优点?
聚类速度快,只需要一遍扫描训练集就可以建立CF Tree,CF Tree的增删改都很快。
请列出5种聚类方法的分类,并举出相应的算法。
1. 基于划分的方法(Partitioning-based Clustering)
比如,你的数据是一堆散点(先画个散点图)。
首先确定散点要分成多少类,然后挑选几个点作为初始中心点,再根据启发式算法不断迭代,达到“类内点距离足够近、类外点距离足够远”的效果。
最经典的算法就是k-均值算法。
2. 基于层次的方法 (Hierarchical-based Clustering)
分为:凝聚(Agglomerative,自下而上的方法)和分裂(Divisive,自上而下的方法)。
核心思想:把所有的样本点都看成一个类,然后计算每个点之间的欧氏距离,然后把距离最近的两个点聚成一个新类,然后继续计算新类之间的距离,不停迭代,直到达到聚类数的要求。
主要算法:BIRCH算法、CURE算法等。
3. 基于密度的方法(Density-based Clustering)
核心思想:用一些圆圈,把一堆散点给分开。需要定义两个参数:一个是圈的半径,另一个是圈里最少要有多少个点。
主要算法:最经典的算法是DBSCAN算法,OPTICS算法等等。
4. 基于网格的方法(Grid-based Clustering)
核心思想:把数据空间划分成单元(cell)的网格结构。所有的处理都是以单个的单元为对象的,计算每个单元的密度。根据预设的阈值,来判断每个网格单元是不是高密度单元。
因为这个算法和样本数量无关,只和网格单元数量有关,所以这种方法在处理大数据集时效率很高。
5. 基于模型的方法(Model-based Clustering)
核心思想:用概率或者神经网络训练的方式,去寻找合适的分类,提高了模型灵活性。
概率模型主要是指:概率生成模型。最经典的方法是高斯混合模型GMM。
神经网络模型主要指:SOM(Self Organized Maps)。
综合题
请论述机器学习与人工智能,数据挖掘的关系。
机器学习是人工智能的一个分支,作为人工智能核心技术和实现手段,通过机器学习的方法解决人工智能面对的问题。
数据挖掘是从大量的业务数据中挖掘隐藏、有用的、正确的知识促进决策的执行。
数据挖掘的很多算法都来自于机器学习,并在实际应用中进行优化。
数据挖掘和机器学习的交集越来越大,机器学习成为数据挖掘的重要支撑技术。
请举例说明3个机器学习常用的应用领域。
艺术创作:
Neural Doodle项目就是使用了深度神经网络,让大家可以通过合成的方式绘制一幅非常厉害的画。原理:使用卷积神经网络,提取模板图片中的绘画特征,然后对你画的涂鸦图片再进行处理,最后合成一张新的图画。
金融领域:
信用评分,检测欺诈,股票市场的趋势预测
网络安全领域:
垃圾邮件检测,入侵检测,恶意软件检测