数据挖掘慕课习题第三章

第三章第一节

  1. 有监督的学习和无监督的学习的根本区别在于:
    (1分)
    学习过程是否需要人工干预
    学习样本是否需要人工标记
    学习结果是否需要人工解释
    学习参数是否需要人工设置
    单选2. 已知池中有两种鱼,比例为7:3,若随机捞上一条,按照70%和30%概率随机猜测其种类,则整体误差最接近于:
    (1分)
    20%
    30%
    40%
    50%
    单选3.提问:小明的妈妈有两个孩子,已知其中一个是男孩儿,问另一个也是男孩儿的概率是:
    (1分)
    二分之一
    三分之一
    四分之一
    真的不关我的事
    单选4. 已知甲乙丙三人射击命中率分别为0.8,0.6和0.5,若每人各开一枪,则目标被命中的概率最接近:
    (1分)
    0.85
    0.90
    0.95
    1.00
    单选5. 当化验报告呈阳性的时候,正确的做法是:
    (1分)
    心如死灰,万念俱灭
    散尽家财,及时行乐
    置若罔闻,我行我素
    及时复检,防止假阳性

第三章第二节

  1. 朴素贝叶斯分类器的朴素之处在于:
    (1分)
    只能处理低维属性
    只能处理离散型属性
    分类效果一般
    属性之间的条件独立性假设
    单选2. 以下关于两个变量X和Y说法正确的是:
    (1分)
    若独立一定不相关
    若不相关一定独立
    若独立不一定不相关
    我已经晕了
    单选3. 两个事件A和B条件独立指的是:
    (1分)
    P(A, B)=P(A)P(B)
    P(A, B)=P(A|B)P(B)
    P(A|B, C)=P(A|C)
    P(A|B)=P(A)
    单选4. 以下关于拉普拉斯平滑说法正确的是:
    (1分)
    防止计算条件概率时分母为零
    防止计算条件概率时分子为零
    用于解决训练集中的噪声
    用于解决训练集中的异常值
    单选5. 在文本分类应用中,关于词袋模型的描述正确的是:
    (1分)
    任何一个单词只能存在于某一个词袋中
    一个单词可能存在于多个词袋中但频率不同
    所有词袋中单词的并集就等同于词汇表
    词袋模型描述的是单词在所有文本中出现的频率

第三章第三节

  1. 作为一种分类器,决策树模型的主要优点是:
    (1分)
    训练时间短
    可解释性好
    善于处理缺失值
    鲁棒性好
    单选2. 下列哪一种情况被称为过学习现象:
    (1分)
    在训练集上A优于B,在测试集上A也优于B
    在训练集上A优于B,在测试集上B优于A
    相对于分类数据集,决策树过于简单
    在训练集上决策树的误差很小
    单选3. 任何一个候选属性在生成的决策树中:
    (1分)
    必须被使用
    只能被使用一次
    可以被使用多次
    可以在任意位置被使用多次
    单选4. 以下关于决策树的说法正确的是:
    (1分)
    决策树越复杂,分类能力越强
    在性能相同的情况下,通常选择能充分利用各种属性的决策树
    对于某一个数据集,只有一个决策树可以将其完美分开
    对于某一个数据集,可以生成多个决策树
    多选5. 奥卡姆的剃刀指的是:
    (1分)
    Entities are not to be multiplied beyond necessity.
    Among competing hypotheses, the one with the fewest assumptions should be selected.
    The simplest explanation is usually the correct one.

    中世纪英国上流社会的一种生活用品。

第三章第四节

  1. 为什么一般不推荐在决策树中使用“生日”属性:
    (1分)
    星座信息更有说服力
    容易造成过学习
    可能的取值太多,计算量过大
    两个人可能生日相同
    单选2. 决策树模型中建树的基本原则是:
    (1分)
    取值多的属性应放在上层
    取值少的属性应放在上层
    信息增益大的属性应放在上层
    应利用尽可能多的属性
    多选3. 哪些情况下必须停止树的增长:
    (1分)
    当前数据子集的标签一致
    没有更多可用属性
    当前数据子集为空

    当前训练误差已经较低
    单选4. 关于决策树剪枝操作正确的描述是:
    (1分)
    从中间节点开始
    从叶节点开始
    有助于保持树的平衡
    可以有效降低训练误差
    单选5. 在决策树模型中,校验集的用途是:
    (1分)
    用于校验模型的训练误差
    用于校验模型的测试误差
    用于校验模型的正确性
    用于控制对模型的剪枝操作
    单选6. 决策树模型中应如何妥善处理连续型属性:
    (1分)
    直接忽略
    利用固定阈值进行离散化
    根据信息增益选择阈值进行离散化
    随机选择数据标签发生变化的位置进行离散化
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值