机器学习笔试面试题——day4

最新推荐文章于 2024-07-11 21:40:10 发布

我们家没有秃头的基因

最新推荐文章于 2024-07-11 21:40:10 发布

阅读量5.7k

点赞数 4

分类专栏：找工作文章标签：算法秋招

本文链接：https://blog.csdn.net/selinaqqqq/article/details/95084129

版权

选择题

2、我们想在大数据集上训练决策树, 为了使用较少时间, 我们可以
A 增加树的深度
B 增加学习率 (learning rate)
C 减少树的深度
D 减少树的数量

增加树的深度, 会导致所有节点不断分裂, 直到叶子节点是纯的为止. 所以, 增加深度, 会延长训练时间.
决策树没有学习率参数可以调. (不像集成学习和其它有步长的学习方法)
决策树只有一棵树, 不是随机森林。

3、假如我们使用非线性可分的SVM目标函数作为最优化对象, 我们怎么保证模型线性可分？
A 设C=1
B 设C=0
C 设C=无穷大
D 以上都不对

C无穷大保证了所有的线性不可分都是可以忍受的.

4、以下哪些算法, 可以用神经网络去构造:

KNN
线性回归
对数几率回归
A 1和 2
B 2 和 3
C 1, 2 和 3
D 以上都不是

KNN算法不需要训练参数, 而所有神经网络都需要训练参数, 因此神经网络帮不上忙
最简单的神经网络, 感知器, 其实就是线性回归的训练
我们可以用一层的神经网络构造对数几率回归

5、请选择下面可以应用隐马尔科夫(HMM)模型的选项
A 基因序列数据集
B 电影浏览数据集
C 股票市场数据集
D 所有以上

6、我们建立一个5000个特征, 100万数据的机器学习模型. 我们怎么有效地应对这样的大数据训练 :
A 我们随机抽取一些样本, 在这些少量样本之上训练
B 我们可以试用在线机器学习算法
C 我们应用PCA算法降维, 减少特征数
D B 和 C
E A 和 B
F 以上所有

7、我们想要减少数据集中的特征数, 即降维. 选择以下适合的方案 :

使用前向特征选择方法
使用后向特征排除方法
我们先把所有特征都使用, 去训练一个模型, 得到测试集上的表现. 然后我们去掉一个特征, 再去训练, 用交叉验证看看测试集上的表现. 如果表现比原来还要好, 我们可以去除这个特征.
查看相关性表, 去除相关性最高的一些特征
A 1 和 2
B 2, 3和4
C 1, 2和4
D All

8、对于随机森林和GradientBoosting Trees, 下面说法正确的是:
1 在随机森林的单个树中, 树和树之间是有依赖的, 而GradientBoosting Trees中的单个树之间是没有依赖的
2 这两个模型都使用随机特征子集, 来生成许多单个的树
3 我们可以并行地生成GradientBoosting Trees单个树, 因为它们之间是没有依赖的
4 GradientBoosting Trees训练模型的表现总是比随机森林好
A2
B1 and 2
C1, 3 and 4
D2 and 4

1 随机森林是基于bagging的, 在随机森林的单个树中, 树和树之间是没有依赖的。
2 Gradient Boosting trees是基于boosting的，且GradientBoosting Trees中的单个树之间是有依赖关系。
3 这两个模型都使用随机特征子集, 来生成许多单个的树。

9、对于PCA(主成分分析)转化过的特征 , 朴素贝叶斯的”不依赖假设”总是成

最低0.47元/天解锁文章

我们家没有秃头的基因

关注

4
点赞
踩
24

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录