第三章第一节
- 有监督的学习和无监督的学习的根本区别在于:
(1分)
学习过程是否需要人工干预
学习样本是否需要人工标记
学习结果是否需要人工解释
学习参数是否需要人工设置
单选2. 已知池中有两种鱼,比例为7:3,若随机捞上一条,按照70%和30%概率随机猜测其种类,则整体误差最接近于:
(1分)
20%
30%
40%
50%
单选3.提问:小明的妈妈有两个孩子,已知其中一个是男孩儿,问另一个也是男孩儿的概率是:
(1分)
二分之一
三分之一
四分之一
真的不关我的事
单选4. 已知甲乙丙三人射击命中率分别为0.8,0.6和0.5,若每人各开一枪,则目标被命中的概率最接近:
(1分)
0.85
0.90
0.95
1.00
单选5. 当化验报告呈阳性的时候,正确的做法是:
(1分)
心如死灰,万念俱灭
散尽家财,及时行乐
置若罔闻,我行我素
及时复检,防止假阳性
第三章第二节
- 朴素贝叶斯分类器的朴素之处在于:
(1分)
只能处理低维属性
只能处理离散型属性
分类效果一般
属性之间的条件独立性假设
单选2. 以下关于两个变量X和Y说法正确的是:
(1分)
若独立一定不相关
若不相关一定独立
若独立不一定不相关
我已经晕了
单选3. 两个事件A和B条件独立指的是:
(1分)
P(A, B)=P(A)P(B)
P(A, B)=P(A|B)P(B)
P(A|B, C)=P(A|C)
P(A|B)=P(A)
单选4. 以下关于拉普拉斯平滑说法正确的是:
(1分)
防止计算条件概率时分母为零
防止计算条件概率时分子为零
用于解决训练集中的噪声
用于解决训练集中的异常值
单选5. 在文本分类应用中,关于词袋模型的描述正确的是:
(1分)
任何一个单词只能存在于某一个词袋中
一个单词可能存在于多个词袋中但频率不同
所有词袋中单词的并集就等同于词汇表
词袋模型描述的是单词在所有文本中出现的频率
第三章第三节
- 作为一种分类器,决策树模型的主要优点是:
(1分)
训练时间短
可解释性好
善于处理缺失值
鲁棒性好
单选2. 下列哪一种情况被称为过学习现象:
(1分)
在训练集上A优于B,在测试集上A也优于B
在训练集上A优于B,在测试集上B优于A
相对于分类数据集,决策树过于简单
在训练集上决策树的误差很小
单选3. 任何一个候选属性在生成的决策树中:
(1分)
必须被使用
只能被使用一次
可以被使用多次
可以在任意位置被使用多次
单选4. 以下关于决策树的说法正确的是:
(1分)
决策树越复杂,分类能力越强
在性能相同的情况下,通常选择能充分利用各种属性的决策树
对于某一个数据集,只有一个决策树可以将其完美分开
对于某一个数据集,可以生成多个决策树
多选5. 奥卡姆的剃刀指的是:
(1分)
Entities are not to be multiplied beyond necessity.
Among competing hypotheses, the one with the fewest assumptions should be selected.
The simplest explanation is usually the correct one.
中世纪英国上流社会的一种生活用品。
第三章第四节
- 为什么一般不推荐在决策树中使用“生日”属性:
(1分)
星座信息更有说服力
容易造成过学习
可能的取值太多,计算量过大
两个人可能生日相同
单选2. 决策树模型中建树的基本原则是:
(1分)
取值多的属性应放在上层
取值少的属性应放在上层
信息增益大的属性应放在上层
应利用尽可能多的属性
多选3. 哪些情况下必须停止树的增长:
(1分)
当前数据子集的标签一致
没有更多可用属性
当前数据子集为空
当前训练误差已经较低
单选4. 关于决策树剪枝操作正确的描述是:
(1分)
从中间节点开始
从叶节点开始
有助于保持树的平衡
可以有效降低训练误差
单选5. 在决策树模型中,校验集的用途是:
(1分)
用于校验模型的训练误差
用于校验模型的测试误差
用于校验模型的正确性
用于控制对模型的剪枝操作
单选6. 决策树模型中应如何妥善处理连续型属性:
(1分)
直接忽略
利用固定阈值进行离散化
根据信息增益选择阈值进行离散化
随机选择数据标签发生变化的位置进行离散化