最新数据仓库和数据挖掘基础知识点_数据仓库与数据挖掘(2),7年老大数据开发一次坑爹的面试经历

img
img

网上学习资料一大堆,但如果学到的知识不成体系,遇到问题时只是浅尝辄止,不再深入研究,那么很难做到真正的技术提升。

需要这份系统化资料的朋友,可以戳这里获取

一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!

(3)完全刷新:这种类型的数据装载用于周期性重写数据仓库。

第三章  第四章

一、概念题

1**、OLAP的基本思想是什么?**

答:OLAP的基本思想是企业的决策者应能灵活地,从多方面和多角度以多维的形式来观察企业的状态和了解企业的变化。

2**、OLAP的定义及特点**

答:联机分析处理是共享多维信息的快速分析,其特点是:快速性、可分析性、多维性和信息性。

3**、OLAP的数据模型有哪些?**

答:OLAP的数据模型主要有:MOLAP是基于多维数据库的OLAP;ROLAP是基于关系数据库的OLAP;HOLAP即混合OLAP介于MOLAP和ROLAP之间。

4**、基本多维数据分析的基本操作有哪些?**

答:基本多维数据分析的基本操作包括切片、切块、旋转、钻取等。

5**、基本代理操作是什么?**

“代理”是一些只能性代理,当系统处于某种特殊状态时提醒分析员,即示警报告、时间报告和异常报告。

6**、什么是概念模型及特点?**

答:将需求分析过程中得到的用户需求抽象为计算机表示的信息结构,即概念模型,其特点是:

(1)能真实反映现实世界;

(2)易于理解;

(3)易于更改;

(4)易于向数据仓库的数据模型转换。

7**、逻辑模型设计的定义及主要工作是什么?**

答:逻辑模型设计是把概念模型设计好的E—R图转换成计算机所支持的数据模型,主要工作为:

(1)主题域进行概念模型到逻辑模型的转换;

(2)粒度层次划分;

(3)关系模式定义;

(4)定义记录系统。

8**、粒度的定义**

答:所谓粒度是指数据仓库中数据单元的详细程度和级别。数据越详细,粒度越小,层次级别就越低;数据综合度越高,粒度越大,层次级别就越高。

9**、什么是物理模型设计及主要工作?**

答:数据仓库的物理模型设计是为逻辑模型设计的数据模型确定一个最适合应用要求的物理结构;其工作是估计存储量,确定数据的存储结构,确定索引,确定数据存放位置,确定存储分配。

二、简答题

1**、数据分析模型有哪些?**

答:(1)绝对模型

它属于静态数据分析,通过比较历史数据值或行为来描述过去发生的事实。

(2)解释模型

它也属于静态数据分析,分析人员利用系统已有的多层次的综合路径层层细化,找出事实发生的原因。

(3)思考模型

它属于动态数据分析,旨在说明在一维或多维上引入一组具体变量或参数后将会发生什么。

(4)公式模型

它的动态数据分析能力更强,该模型表示在多个维上,需要引入哪些变量或参数,以及引入后所产生的结果。

2**、实现基于WEBOLAP的三种方法**

(1)静态的Html报表;

(2)通过Html模仿、元数据动态生成报表;

(3)使用Java或ActiveX的改进方式。

3**、B—Tree技术与Bit—Wise索引技术对比**

Bit—Wise索引技术比B—Tree技术能提高响应速度10——100倍。

(1)B—Tree索引技术特点

按行存储数据;

针对具体查询来建立查询驱动的索引机制;

存储被索引的字段数据;

一列允许一个索引;

适合于高基数字段;

(2)Bit—Wise索引技术特点

按列存储数据;

针对实际特征建索引;

不存储实际索引字段内容;

一列允许多个索引;

数据压缩技术和位操作技术;

适合于低基数字段,兼顾高基数字段。

4**、数据污染产生的原因有哪些?**

答:(1)系统转换

由于系统升级而发生变化时,在文件转换过程中,会对数据产生污染。系统转换和迁移是数据污染的重要原因。查找数据污染需要了解每一次源系统所经过转换过程。

(2)数据老化

在源系统中有很多旧系统时,旧的值随着时间的变化会失去它的含义和意义,逐渐形成数据污染。

(3)复杂的系统集成

数据不一致会产生数据污染。数据仓库的源系统种类越多,出现污染数据的可能性大。

(4)数据输入的不完整信息

在初始数据输入时,没有完全输入所有的字段,将导致数据值缺失;对必须输入的字段,随便输入一些通用数据,也将产生数据污染。

(5)输入错误

错误的数据输入也是数据污染的一个主要来源。

(6)欺诈

有些人为了欺诈,千方百计地往系统中输入错误的数据,特别是涉及金额或产品数量的字段。

(7)缺乏相关政策

如果公司对数据质量没有明确的相关政策,它的数据质量就不可能得到保证。

第五章

一、概念题

1**、什么是休眠数据?**

答:是那些存在于数据仓库中,当前不使用,将来也很少使用或不使用的数据。

二、简答题

1**、休眠数据产生的原因是什么?**

(1)在数据仓库中输入了过多的近期基本数据

(2)过多的增加了不必要的综合数据

(3)历史数据用于预测,由于过高的估计所需要的历史数据的时间长度,超过了预测需求的历史数据。

2**、监视休眠数据有哪些?**

监视休眠数据分为三级:表格级休眠、列级休眠、值级休眠

(1)表格级休眠:通常出现于小表格和包括概括数据的表格中,这些类型的表格通常是在数据临时被使用时创建。

(2)列级休眠:造成列级休眠的原因是最终用户没有真正认识到某列在将来会有什么用途,但在涉及数据仓库时却指定了需要此列。

(3)值级休眠:这是一种非常普通的数据休眠类型,产生值级休眠的原因是最终用户指定了过多的大量的历史数据。

第六章  数据挖掘原理

一、概念题

1**、知识发现(KDD)的定义是什么?**

答:KDD是从数据集中识别出有效的、新颖的、潜在有用的,以及最终可理解的模式的高级处理过程。

2**、数据挖掘任务是什么?**

答:数据挖掘任务有六项:关联分析、时序模式、聚类、分类、偏差检测、预测。

3**、数据挖掘方法和技术可以分为六大类,都有哪些?**

答:(1)归纳学习的信息论方法;

(2)归纳学习的集合论方法;

(3)仿生物技术的神经网络方法;

(4)仿生物技术的遗传算法;

(5)数值数据的公式发现;

(6)可视化技术。

4**、数据挖掘的知识表示类型有哪些?**

答:数据挖掘各种方法获得的知识的表示形式,主要有六种:规则、决策树、知识基、网络权值、公式和案例。

第七章  信息论方法

一、概念题

1**、什么是决策树?**

答:决策树是用样本的属性作为结点,用属性的取值作为分支结构。它是利用信息论原理对大量样本的属性进行分析和归纳而产生的。决策树的根节点是所有样本中信息量最大的属性。树的中间结点是该结点为根的子树所包含的样本子集中信息量最大的属性。决策树的叶结点是样本的类别值。

第十一章  文本挖掘和Web挖掘

一、概念题

1**、什么是文本挖掘?**

答:文本挖掘是一个从大量文本数据中提取以前未知的、有用的、可理解的、可操作的知识的过程,文本挖掘面临的主要问题是挖掘对象的半结构化和非结构化。

2**、文本挖掘功能层次是什么?**

3**、Web信息的特点是什么?**

答:(1)web信息特别庞大;

(2)Web信息非常复杂;

(3)Web信息是动态的;

(4)Web信息使用者复杂;

(5)Web信息中的“垃圾”非常多。

4**、什么是召回(recall)和精度(precision)?**

答:精度回答了在返回网页中,正确的标题的比例是多少的问题;召回则是回答返回了多少正确网页的问题。

5**、Page—rank的基本思想是什么?**

答:(1)一个页面被多次引用,则这个页面很可能是重要的;

(2)一个页面尽管没有被多次引用,但被一个重要的页面引用,则这个页面很可能是重要的;

(3)一个页面的重要性被均分并被传递到它所引用的页面。

二、简答题:

1**、文本挖掘和数据挖掘的区别是什么?**

数据挖掘文本挖掘
研究对象用数字表示的、结构化的数据无结构或者半结构化的文本
对象结构关系数据库自由开放的文本
目标获取知识,预测以后的状态提取概念和知识
方法归纳学习、决策树、神经网络、粗糙集、遗传算法等提取短语、形成概念、关联分析、聚类、分类
成熟度从1994年开始得到广泛应用从2000年开始得到广泛应用

2**、Web挖掘的分类有哪些?**

(1)Web内容挖掘

内容挖掘是用来提取文字、图片或其他组成网页内容成分的信息和知识。

(2)Web结构挖掘

img
img

网上学习资料一大堆,但如果学到的知识不成体系,遇到问题时只是浅尝辄止,不再深入研究,那么很难做到真正的技术提升。

需要这份系统化资料的朋友,可以戳这里获取

一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!

FF,t_70)

(1)Web内容挖掘

内容挖掘是用来提取文字、图片或其他组成网页内容成分的信息和知识。

(2)Web结构挖掘

[外链图片转存中…(img-48aKLZAG-1715507607350)]
[外链图片转存中…(img-GPSf2muB-1715507607350)]

网上学习资料一大堆,但如果学到的知识不成体系,遇到问题时只是浅尝辄止,不再深入研究,那么很难做到真正的技术提升。

需要这份系统化资料的朋友,可以戳这里获取

一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值