数据挖掘--2023练习一

  1. 数据对象的别名不包括: A.记录 B.样本 C.向量 D.特征

  1. 属性的别名不包括: A.特征 B.样本 C.字段 D.维

3.下列说法不正确的是

A测量标度是将数值或符号与对象的属性相关联的规则

B属性的性质不必与用来度量它的值的性质完全相同

C即使在不同的应用问题中,同一个物理量也必然使用同一种类型的属性来描述

D属性类型可以划分为:标称、序数、区间、比率这四种

4.某办公自动化系统中,采用出生年份表示雇员的年龄,这是什么类型属性

A标称

B序数

C区间

D比率

5.某学籍管理系统中,采用百分制表示学生分数,这是什么类型属性

A标称

B序数

C区间

D比率

6.下列说法中错误的是:

A噪声是测量误差的随机部分

B数据中出现遗漏值的原因,可能是信息没有收集到,或者属性不适用于所有情况。

C通常由于不同的数据源合并时造成重复数据的产生

D离群点不可能是合法的数据对象或值

7.下列选项中不属于数据预处理方法的是

A维归约

B聚类

C离散化与二元化

D属性变换

8.下列说法中错误的是:

A维归约是通过创建新属性,将一些旧属性合并在一起来降低数据集的维度

B通过聚集操作,对象或属性群的行为通常比单个对象或属性的行为更加稳定;并且聚集操作不会丢失有趣的细节

C之所以可以进行特征子集选择,是因为特征中通常包含冗余特征或不相关特征

D特征创建可以通过特征提取、映射数据到新的空间等方法来实现。

9.引发人们对数据挖掘开展研究的挑战性问题包括(多选) :

A可伸缩

B高维性

C异种数据和复杂数据

D数据的所有权与分布

E非传统的分析

  1. 向量x=[3,2,3,1],y=[1,4,5,3],两者之间的欧几里得距离为 4

  1. x=[1,2,0,2,0],y=[2,2,2,0,2],两者之间的夹角余弦相似度为 1/2

  1. x=[0,1,1,0,0],y=[1,1,0,0,1],两者之间的Jaccard相似性系数为 1/4

  1. x=[0,1,1,0,0],y=[1,1,0,0,1],两者之间的简单匹配系数为 2/5

  1. 考试成绩定义为“优”、“良”、“中”、“差”四种,属性“良”和“中”之间的相异度为(答案可以写成分数或小数形式,小数形式保留小数点后2位) 1/3

  1. 通常,信用卡盗刷的交易记录在全体信用卡交易的事务数据中,可以视为是离群点。 √

  1. 离群点可以是合法的数据对象或值。 √

  1. 数据中出现遗漏值的原因,可能是信息没有收集到,或者属性不适用于所有情况。 √

  1. 维归约和特征子集选择这两种操作都可以达到降低数据维度的效果。 √

19.对变量进行标准化/规范化,就是创建一个新的变量,它具有均值0和标准差0 x

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值