简答题数据挖掘

  1. 请列举你所学习过一些机器学习的算法?简要描述下其原理。

  2. 请分析下K近邻算法的优缺点?

  3. 自然语言典型的文本预处理步聚。

  4. 数据挖掘的两大目标分为预测和描述,监督学习和无监督学习分别对应哪类目标?

  5. 监督学习和无监督学习的定义是什么?

  6. 分别从监督类学习和无监督类学习中找一类算法的实例应用进行举例说明。

  7. 用文字的形式描述K-Means算法的过程?

  8. 第一章

    1.影响数据质量问题的因素有哪些(  D  )

      A.准确性、完整性、一致性

      B.相关性、时效性

      C.可信性、可解释性

      D.以上都是

    2.以下说法错误的是

      A.数据预处理的主要流程为数据清理、数据集成、数据变换与数据归约

      B.数据清理、数据集成、数据变换、数据归约这些步骤在数据预处理活动中必须顺序使用

      C.冗余数据的删除既是一种数据清理形式,也是一种数据归约

      D.整个预处理过程要尽量人机结合,尤其要注重和客户以及专家多交流

    3.处理噪声的方法一般有

      A.分箱

      B.回归

      C.聚类

      D.以上都是

    4.数据集成的过程中需要处理的问题有

      A.实体识别

      B.冗余与相关性分析

      C.数据冲突和检测

      D.以上都是

    5.数据集成的方法有

      A.联邦数据库

      B.中间件集成

      C.数据复制

      D.以上都是

    6.数据归约的方法有

      A.维归约

      B.数量归约

      C.数据压缩

      D.以上都是

    7.以下说法错误的是

      A.主成分分析、属性子集选择为维归约方法

      B.直方图、聚类、抽样和数据立方体聚集为数量归约方法

      C.用于规约的时间可以超过或抵消在规约后的数据上挖掘节省的时间

      D.数据归约的目的用于帮助从原有庞大数据集中获得一个精简的数据集合,并使这一精简数据集保持原有数据集的完整性,这样在精简数据集上进行数据挖掘显然效率更高,并且挖掘出来的结果与使用原有数据集所获得结果是基本相同。

    8.下列方法不是数据变换的有

      A.光滑

      B.抽样

      C.规范化

      D.属性构造

  9. 假定属性income的最小与最大值分别为25000和3000,根据最小—最大规范化方法将income 10000映射到[0,1]范围内,值为0.318   
  10. 数列为[3,5,10,15,10,13],使用z-score方法映射后为-1.649,-1.178,0,1.178,0,0.707

简答题

数据质量涉及的因素:准确性,完整性,一致性(采集角度),时效性,相关性(应用角度),可信性,可解释性(用户角度

数据清理:试图填充空缺的值、识别孤立点、消除噪声,并纠正数据中的不一致性

数据集成:将互相关联的分布式异构数据源集成到一起,使用户能够以透明的方式访问这些数据源

数据规约:用于帮助从原有庞大数据集中获得一个精简的数据集合,并使这一精简数据集保持原有数据集的完整性,这样在精简数据集上进行数据挖掘显然效率更高,并且挖掘出来的结果与使用原有数据集所获得结果是基本相同

数据变换:将数据转换或统一成易于进行数据挖掘的数据存储形式,使得挖掘过程可能更有效

缺失值处理策略:

忽略元组

人工填写

使用全局常量代替

属性的中心度量来填充

使用于给定元组同一类的所有样本平均值

使用最可能的值

噪声值处理策略:

分箱法、回归、聚类

转换是ETL解决方案中最主要的部分,它负责处理抽取、转换、加载各阶段对数据行的各种操作。

转换包括一个或多个步骤。转换中的步骤通过跳来连接,跳定义了一个单向通道,允许数据从一个步骤向另一个步骤流动。

数据清理,就是试图检测和去除数据集中的噪声数据和无关数据,处理遗漏数据,去除空白数据域和知识背景下的白噪声,解决数据的一致性、唯一性问题,从而达到提高数据质量的目的。

①将一行记录拆分为多行记录,新的记录里有新的字段,由拆分后的子字符串填充;

②拆分方式可根据分隔符进行拆分,其中分隔符支持正则表达式;

③被拆分的源字段仍保留在新纪录里;

①将指定的输入字段根据分隔符拆分成多个字段;

②被拆分的字段将不复存在;

③分隔符不支持正则表达式;

写出下面这个作业的执行顺序。

    (1)首先开始作业项搜索所有下一个节点作业项,找到了 “A” “C”

(2)执行 “A”

(3)搜索 “A” 后面的作业项,发现了 “B”

(4)执行 “B”

(5)搜索 “B” 后面的作业项,没有找到任何作业项。

(6)回到 “A”,也没发现其他作业项。

(7)回到 “START”,发现另一个要执行的作业项 “C”

(8)执行 “C”

(9)搜索 “C” 后面的作业项,没有找到任何作业项。

(10)回到 “START”,没有找到任何作业项。

(11)作业结束。

事实表存放各种业务数据。事实数据表包含特定业务事件的数据。

  1. 数据预处理的目的:提升数据质量。
  2. 数据预处理的主要流程:数据清理,数据集成,数据归约,数据变换
  3. 数据清理的对象:缺失值,噪声数据
  4. 数据集成问题:实体识别问题,冗余和相关分析,数据值冲突的检测与处理
  5. 数据变换的策略:光滑,属性构造,聚集,规范化,离散化,由标称数据产生概念分层
  6. 数据归约策略:维归约,数量规约,数据压缩
  7. 什么是转换?
  8. 什么是跳?
  9. 数据清理的目的?
  10. “拆分字段成多行”和“拆分字段”的区别:
  11. “拆分字段成多行”:
  12. “拆分字段”:
  13.  回溯算法:假设执行到一条路径的某个节点,要依次执行这个节点的所有子路径,知道没有可执行的子路径是返回上一个节点,再反复这个过程。
  14.  START作业项是一个特殊的作业项,定义了一个作业的起点,一个作业必须且只能定义一个START作业项。
  15. Kettle作业的监控方式:日志,邮件。
  16. 数据仓库定义:数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策和信息的全局共享。主要由维度表和事实表组成。
  17. 维度表存放基础属性。维度表是各种属性的集合,是人们分析问题的角度。
  18. 业务主键是业务主体的唯一标识,代理键是为了确定维度表中唯一的行而增加的键。
  19. 维度表的两个模型:星型模型和雪花模型。
  20. 你对于人工智能的未来怎么看?请谈谈它可能对人类社会造成哪些利弊?

第二章

1.Kettle是一个     程序

  A.Java

  B.Python

  C.JavaScipt

  D.C++

2.转换是ETL解决方案中最主要的部分,它负责处理            各阶段对数据行的各种操作

  抽取、转换、加载

  转换、加载、抽取

  加载、抽取、转换

  加载、转换、抽取

  箭头

  连线

  队列

4.跳定义了一个       ,允许数据从一个步骤向另一个步骤流动

  单向通道

  双向通道

  方向

  队列

5.在Kettle里,数据的单位是    ,数据流就是数据行从一个步骤到另一个步骤的移动

 

  列

  单元格

  字段

6.数据流的另一个同义词就是      

  记录流

  队列

  消息

  数据库

7.     是转换里的基本组成部分。它是一个图形化的组件,可以通过配置步骤的参数,使得它完成相应的功能。

  步骤

  图标

  控件

  弹框

8.      步骤可以从指定的数据库中读取指定关系表的数据

  表输入

  Excel输入

  CSV文件输入

  OLAP 输入

9.步骤需要有一个    的名字

  唯一性

  个性化

  功能化

  以上都是

10.一个跳,相对于输出数据的步骤而言,为    跳;相对于输入数据的步骤而言,为     跳。

  输出、输入

  输入、输出

  • 10
    点赞
  • 105
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值