前言
这里主要内容为系统架构设计师教程(第二版)上对应2.3.3及6,数据库系统,主要考点在6,这里一起合并。主要改动在数据设计,NoSQL在案例专题有,这里不新增。内容是看了视频后整理,如有遗漏,欢迎评论补充。
刷题使用51CTO小程序 如果大家有更好的 可以分享一下。
文章目录
数据库系统
概念
数据:是数据库中存储的基本对象,是描述事物的符号记录。文本、图形、图像、音频、视频、学生的档案记录、货物的运输数据的种类情况等。
数据库DB:是长期存储在计算机内、有组织的、可共享的大量数据的集合。
数据库的基本特征:
- 数据按一定的数据模型组织、描述和存储
- 可为各种用户共享
- 冗余度较小
- 数据独立性较高
- 易扩展
数据库系统DBS:是一个采用了数据库技术,有组织地、动态地存储大量相关数据,方便多用户访问的计算机系统。其由下面四个部分组成:
- 数据库(统一管理、长期存储在计算机内的,有组织的相关数据的集合
- 硬件(构成计算机系统包括存储数据所需的外部设备)
- 软件(操作系统、数据库管理系统及应用程序)
- 人员(系统分析和数据库设计人员、应用程序员、最终用户、数据库管理员DBA)
数据库管理系统DBMS的功能
- 实现对共享数据有效的组织、管理和存取。
- 包括数据定义、数据库操作、数据库运行管理、数据的存储管理、数据库的建立和维护等。
三级模式两级映像
三级模式:
- 内模式:管理如何存储物理的数据,对应具体物理存储文件。
- 模式:又称为概念模式,就是我们通常使用的基本表,根据应用、需求将物理数据划分成一张张表。
- 外模式:对应数据库中的视图这个级别,将表进行一定的处理后再提供给用户使用
两级映像:
- 外模式一模式映像:是表和视图之间的映射,存在于概念级和外部级之间,若表中数据发生了修改,只需要修改此映射,而无需修改应用程序。
- 模式一内模式映像:是表和数据的物理存储之间的映射存在于概念级和内部级之间,若修改了数据存储方式,只需要修改此映射,而不需要去修改应用程序。
数据库设计
-
需求分析:即分析数据存储的要求,产出物有数据流图、数据字典、需求说明书。获得用户对系统的三个要求:信息要求、处理要求、系统要求。
-
概念结构设计:就是设计E-R图,也即实体-联系图。工作步骤包括:选择局部应用、逐一设计分E-R图、E-R图合并。
分E-R 图进行合并时,它们之间存在的冲突主要有以下3类:
- 属性冲突。同一属性可能会存在于不同的分E-R 图中。
- 命名冲突。相同意义的属性,在不同的分E-R图上有着不同的命名或是名称相同的属性在不同的分E-R 图中代表着不同的意义。
- 结构冲突。同一实体在不同的分E-R 图中有不同的属性,同一对象在某一分E-R 图中被抽象为实体而在另一分E-R 图中又被抽象为属性
-
逻辑结构设计:将E-R图,转换成关系模式。工作步骤包括:确定数据模型、将E-R 图转换成为指定的数据模型、确定完整性约束和确定用户视图。
-
物理设计:步骤包括确定数据分布、存储结构和访问方式
-
数据库实施阶段:根据逻辑设计和物理设计阶段的结果建立数据库,编制与调试应用程序,组织数据入库,并进行试运行。
-
数据库运行和维护阶段:数据库应用系统经过试运行即可投入运行,但该阶段需要不断地对系统进行评价、调整与修改。
例题
例题1:在数据库系统中,数据库的视图、基本表和存储文件的结构分别与()对应;数据的物理独立性和数据的逻辑独立性是分别通过修改()来完成的。
A.模式、外模式、内模式 B.模式、内模式、外模式模式
C.外模式、模式、内模式 D.外模式、内模式、模式
A.模式与内模式之间的映像、外模式与模式之间的映像
B.外模式与内模式之间的映像、外模式与模式之间的映像
C.外模式与模式之间的映像、模式与内模式之间的映像
D.外模式与内模式之间的映像、模式与内模式之间的映像
答案:C A
例题2:在数据库逻辑结构设计阶段,需要( )阶段形成的( )作为设计依据。
A.需求分析 B.概念结构设计 C.物理结构设计 D.数据库运行和维护
A.程序文档、数据字典和数据流图 B.需求说明文档、程序文档和数据流图。
C.需求说明文档、数据字典和数据流图 D.需求说明文档、数据字典和程序文档
答案:A C
E_R模型
数据模型分类:
- 关系模型是二维表的形式表示的实体-联系模型,是将实体-联系模型转换而来的,经过开发人员设计的;
- 概念模型是从用户的角度进行建模的,是现实世界到信息世界的第一抽象是真正的实体-联系模型。
- 网状模型表示实体类型及其实体之间的联系,一个事物和另外几个都有联系形成一张网。
- 面向对象模型是采用面向对象的方法设计数据库,以对象为单位,每个对象包括属性和方法,具有类和继承等特点。
数据模型三要素:数据结构(所研究的对象类型的集合)、数据操作(对数据库中各种对象的实例允许执行的操作的集合)、数据的约束条件(一组完整性规则的集合)。
用E-R图来描述概念数据模型世界是由一组称作实体的基本对象和这些对象之间的联系构成的。
在 E-R 模型中,使用椭圆表示属性(一般没有)、长方形表示实体、菱形表示联系,联系的两端要填写联系类型,示例如下图:
实体:客观存在并可相互区别的事物。可以是具体的人、事、物或抽象概念。如人、汽车、图书、账户、贷款。
弱实体和强实体:弱实体依赖于强实体的存在而存在。
实体集:具有相同类型和共享相同属性的实体的集合,如学生、课程。
属性:实体所具有的特性。
属性分类:简单属性和复合属性(属性是否可以分割)、单值属性和多值属性(属性有多个取值)、NULL属性(无意义)、派生属性(可由其他属性生成)。
域:属性的取值范围称为该属性的域。
码(key):唯一标识实体的属性集。
联系:现实世界中事物内部以及事物之间的联系,在E-R图中反映为实体内部的联系和实体之间的联系。
联系类型:一对一 1:1、一对多 1:N、多对多 M:N。
两个以上实体的联系
关系模型中数据的逻辑结构是一张二维表,由行列组成。用表格结构表达实体集,用外键标识实体间的联系。
那么 E-R模型如何转换为关系模型呢(实际就是转换为多少张表)?
每个实体都对应一个关系模式;联系分为三种:
1:1联系中,联系可以放到任意的两端实体中,作为一个属性(要保证 1:1的两端关联)也可以转换为一个单独的关系模式;
1:N 的联系中,联系可以单独作为一个关系模式,也可以在N端中加入1端实体的主键;
M:N的联系中,联系必须作为一个单独的关系模式,其主键是M和N端的联合主键。
以上,明确了有多少关系模式,就知道有多少张表,同时,表中的属性也确定了,注意联系是作为表还是属性,若是属性又是哪张表的属性即可。
例题
例题1:某本科高校新建教务管理系统,支撑各学院正常的教学教务管理工作。经过初步分析,系统中包含的实体有学院、教师、学生、课程等。考虑需要将本科学生的考试成绩及时通报给学生家长,新增家长实体;考虑到夜大、网络教育学生管理方式的不同,需要额外的管理数据,新增进修学生实体:规定一个学生可以选择多门课程,每门课程可以被多名学生选修;一个教师可以教授多门课程,一门课程只能被一名教师讲授。()实体之间为多对多联系,()属于弱实体对强实体的依赖联系。
A.学生、学院 B.教师、学院 C.学生、课程 D.教师、课程
A.家长、学生 B.学生、教师 C.学生、学院 D.教师、学院
答案:C A
例题2:
答案:C D B
关系代数运算
关系模式在代数运算时可以理解为数据库中的表,两个概念通用。
并:结果是两张表中所有记录数合并,相同记录只显示一次。
交:结果是两张表中相同的记录。
差:S1-S2,结果是S1表中有而S2 表中没有的那些记录。
设有S1和S2 关系如下图,其并交差结果如下图:
笛卡尔积:S1 * S2,产生的结果包括S1和2的所有属性列,并且S1中每条记录依次和S2中所记录组合成一条记录,最终属性列为S1+S2属性列,记录数为S1 * S2记录数。
投影(π):实际是按条件选择某关系模式中的某列,列也可以用数字表示。
选择(σ):实际是按条件选择某关系模式中的某条记录。
设有S1和S2关系如下图,其笛卡尔积、投影(π2)、选择(σ2=‘NO0003’)结果如下图:
自然连接:结果显示全部的属性列,但是相同属性列只显示一次,显示两个关系模式中属性相同且值相同的记录。自然联接结果如下:
效率问题:关系代数运算的效率,归根结底是看参与运算的两张表格的属性列数和记录数,属性列和记录数越少,参与运算的次数自然越少,效率就越高。因此,效率高的运算一般都是在两张表格参与运算之前就将条件判断完。如:
π1,2,3,8(σ2=‘大数据’ ^ 1=5 ^ 3=6 ^ 8=‘开发平台’(R * S)) 和
π1,2,3,8(σ 1=5 ^ 3=6 (σ2=‘大数据’® × σ4 = ’ 开发平台’ (S)))。 这两个式子中π 表示投影 σ表示选择 ^表示且
后者效率比前者效率高很多
例题
例题1:
答案:
关系数据库的规范化
函数依赖
给定一个X,能唯一确定一个Y,就称X确定 Y,或者说Y依赖于 X,例如 Y=X * X函数。
函数依赖又可扩展以下两种规则:
部分函数依赖:A可确定C,(A,B)也可确定C,(A,B)中的一部分(即A)可以确定C,称为部分函数依赖。
传递函数依赖:当A和B不等价时,A可确定B,B可确定C,则A可确定C,是传递函数依赖;若A和B等价,则不存在传递,直接就可确定C。
Armstrong 公理系统
设关系模式R<U,F>,U是关系模式R的属性全集,F是关系模式R的一个函数依赖集。对于R<U,F>来说有以下的: (X→Y 表示 X决定Y,Y依赖于X)
- 自反律:若属性集Y包含于属性集X,属性集X包含于U,即 Y⊆X⊆U,则 X→Y在R上成立。(此处 X→Y是平凡函数依赖)(⊆的意思是:包含于)
- 增广律:若X→Y在R上成立,且属性集Z包含于属性集U,则XZ→YZ在R上成立
- 传递律:若X→Y和Y→Z在R上成立,则x→Z在R上成立。
- 合并规则:若X→Y,X→Z同时在R上成立,则X→YZ在R上也成立。
- 分解规则:若X→W在R上成立,且属性集Z包含于W,则X→Z在R上也成立。
- 伪传递规则:若X→Y在R上成立,且WY-Z,则XW→Z。
键和约束
超键:能唯一标识此表的属性的组合。
候选键:超键中去掉冗余的属性,剩余的属性就是候选键
主键:任选一个候选键,即可作为主键。
外键:其他表中的主键。
主属性:候选键内的属性为主属性,其他属性为非主属性。
约束:
实体完整性约束:即主键约束,主键值不能为空,也不能重复
参照完整性约束:即外键约束,外键必须是其他表中已经存在的主键的值,或者为空
用户自定义完整性约束:自定义表达式约束,如设定年龄属性的值必须在0到150之间
触发器:通过写脚本来规定复杂的约束。本质属于用户自定义完整性约束。
范式
第一范式1NF:
关系中的每一个分量必须是一个不可分的数据项。通俗地说,第一范式就是表中不允许有小表的存在。比如,对于如下的员工表,就不属于第一范式:
上表中,出现了属性薪资又被分为基本工资和补贴两个子属性,就好像表中有分割了一个小表,这就不属于第一范式。如果将基本工资和补贴合并,那么该表符合1NF。
1NF 可能存在的问题:1NF是最低一级的范式,范式程度不高,存在很多的问题。比如用一个单-的关系模式学生来描述学校的教务系统:学生(学号,学生姓名,系名,系主任姓名,课程号,成绩)
这个表满足第一范式,但是存在如下问题:
- 数据冗余:一个系有很多的学生,同一个系的学生的系主任是相同的,所以系主任名会重复出现。
- 更新复杂:当一个系换了一个系主任后,对应的这个表必须修改与该系学生有关的每个元组。
- 插入异常:如果一个系刚成立,没有任何学生,那么这个无法把这个系的信息插入表中。
- 删除异常:如果一个系的学生都毕业了,那么在删除该系学生信息时,这个系的信息也丢了。
第二范式 2NF:
如果关系R属于 1NF,且每一个非主属性完全函数依赖于任何一个候选码,则R属于2NF。通俗地说,2NF就是在1NF的基础上,表中的每一个非主属性不会依赖复合主键中的某一个列。
按照定义,上面的学生表就不满足 2NF,因为学号不能完全确定课程号和成绩(每个学生可以选多门课)。
将学生表分解为:
学生(学号,学生姓名,系名,系主任)
选课(学号,课程号,成绩)。
每张表均属于 2NF。
第三范式 3NF
在满足1NF的基础上,表中不存在非主属性对码的传递依赖。
继续上面的实例,学生关系模式就不属于3NF,因为学生无法直接决定系主任和系名,是由学号->系名,再由系名->系主任,因此存在非主属性对主属性的传递依赖,将学生表进一步分解为:
学生(学号,学生姓名,系名)
系(系名,系主任)
选课(学号,课程号,成绩)
每张表都属于 3NF。
BC范式 BCNF:
所谓 BCNF,是指在第三范式的基础上进一步消除主属性对于码的部分函数依赖和传递依赖。通俗的来说,就是在每一种情况下,每一个依赖的左边决定因素都必然包含候选键,如下:
上图中,候选键有两种情况:组合键(S,T)或者(S,J),依赖集为{SJ-T,T-J},可知,STJ 三个属性都是主属性,因此其达到了 3NF(无非主属性),然而,第二种情况,即(S,J)为候选键的时候,对于依赖 T->J,T在这种情况不是候选键,即T-J的决定因素不包含任意候选码,因此上图不是 BCNF。
要使上图关系模式转换为 BCNF也很简单,只需要将依赖T-变为TS-习即可,这样其左边决定因素就包含了候选键之一S。
例题
例题1:给定关系模式R(U,F),U={A,B,C,D},F={AB→C,CD→B}。关系R(),且分别有()
A.只有1个候选关键字ACB B.只有1个候选关键字BCD
C.有2个候选关键字ACD和ABD D.有2个候选关键字ACB和BCD
A.0个非主属性和4个主属性 B.1个非主属性和3个主属性
C.2个非主属性和2个主属性 D.3个非主属性和1个主属性
答案:C A
解析:候选键的求法:根据依赖集画出有向图,从入度为0的节点开始,找出图中一个节点或者一个节点组合,能够遍历完整个图,就是候选键。
例题2:设有关系模式R(E,N,M,L,Q),其函数依赖集为F={E→N,EM→Q,M→L。则关系模式R达到了();该关系模式()
A.1NF B.2NF C.3NF D. BCNF
A.无需进行分解,因为已经达到了3NF
B.无需进行分解,因为已经达到了BCNF
C. 尽管不存在部分函数依赖,但还存在传递依赖,所以需要进行分解
D. 需要进行分解,因为存在冗余、修改操作的不一致性、插入和删除异常
答案:A D
模式分解
范式之间的转换一般都是通过拆分属性,即模式分解,将具有部分函数依赖和传递依赖的属性分离出来,来达到一步步优化,一般分为以下两种:
保持函数依赖分解
对于关系模式R,有依赖集F,若对R进行分解,分解出来的多个关系式,保持原来的依赖集不变,则为保持函数依赖的分解。另外,注意要消除掉冗余依赖(如传递依赖)。
实例:设原关系模式 U(A,B,C),依赖集 F(A->B,B->C,A->C),将其分解为两个关系模式 R1(A,B)和R2(B,C),此时 R1中保持依赖 A->B,R2 保持依赖 B->C,说明分解后的 R1和 R2 是保持函数依赖的分解,因为 A->C这个函数依赖实际是一个冗余依赖,可以由前两个依赖传递得到,因此不需要管。
保持函数依赖的判断(补充,第2点不强求)
-
如果F上的每一个函数依赖都在其分解后的某一个关系上成立,则这个分解是保持依赖的(这是一个充分条件)。也即我们课堂上说的简单方法,看函数每个依赖的左右两边属性是否都在同一个分解的模式中。
-
如果上述判断失败,并不能断言分解不是保持依赖的,还要使用下面的通用方法来做进一步判断。
该方法的表述如下:
算法二:
对F上的每一个α-β使用下面的过程:
result:=α ;
while(result 发生变化)dofor each 分解后的 Ri
t=(result ∩ Ri)+ ∩ Ri
result=result ∪ t
例题
假设关系模式R(U,F),属性集U={A,B,C),函数依赖集F={A→B,B→C)。若将其分解为p={R1(U1,F1),R2(U2,F2)),其中U1={A,B)U2={A,C}。那么,分解p()
A. 有损连接但保持函数依赖 B. 既无损连接又保持函数依赖
C.有损连接且不保持函数依赖 D. 无损连接但不保持函数依赖
答案:D
解析:首先,该分解,U1保持了依赖A->B,然而B->C没有保持,因此针对B->C需要用第2点算法来判断: result=B, resultn ∩ U1 = B, B+ = BC,BC ∩ U1=B,result=B ∪ B=B,result没变,然后,result再和U2交是空,结束了,不保持函数依赖。注意,这里B+,+的意思是代表由B能够推导出的其他所有属性的集合,这里,B->C,因此B+ = BC。
无损分解
分解后的关系模式能够还原出原关系模式,就是无损分解,不能还原就是有损。
当分解为两个关系模式,可以通过以下定理判断是否无损分解:
定理:如果R的分解为p={R1,R2},F为R所满足的函数依赖集合,分解p具有无损连接性的充分必要条件是R1 ∩ R2->(R1-R2)或者R1 ∩ R2->(R2-R1)。
当分解为三个及以上关系模式时,可以通过表格法求解,如下:
例题
例题1:给定关系模式R<U,F>,U={A,B,C,D,E},F={B→A,D→A,A→E,AC→B},则R的候
选关键字为( ),分解p={R1(ABCE),R2(CD)}( )。
A.CD B.ABD C.ACD D.ADE
A.具有无损连接性,且保持函数依赖 B.不具有无损连接性,但保持函数依赖
C.具有无损连接性,但不保持函数依赖 D.不具有无损连接性,也不保持函数依赖
答案:A D
并发控制
事务管理
事务提交commit,事务回滚rollback。
事务:由一系列操作组成,这些操作,要么全做,要么全不做,拥有四种特性,详解如下:
- (操作)原子性:要么全做,要么全不做。
- (数据)一致性:事务发生后数据是一致的,例如银行转账,不会存在A账户转出,但是B账户没收到的情况。
- (执行)隔离性:任一事务的更新操作直到其成功提交的整个过程对其他事务都是不可见的,不同事务之间是隔离的,互不干涉。
- (改变)持续性:事务操作的结果是持续性的。
事务是并发控制的前提条件,并发控制就是控制不同的事务并发执行,提高系统效率,但是并发控制中存在下面三个问题:
- 丢失更新:事务1对数据A进行了修改并写回,事务2也对A进行了修改并写回,此时事务2写回的数据会覆盖事务1写回的数据,就丢失了事务1对A的更新。即对数据A的更新会被覆盖。
- 不可重复读:事务2读A,而后事务1对数据A进行了修改并写回,此时若事务2再读A,发现数据不对。即一个事务重复读A两次,会发现数据A有误。
- 读脏数据:事务1对数据A进行了修改后,事务2读数据A,而后事务1回滚,数据A恢复了原来的值,那么事务2对数据A做的事是无效的,读到了脏数据。
封锁协议
X锁是排它锁(写锁)。若事务T对数据对象A加上X锁,则只允许T读取和修改A,其他事务都不能再对A加任何类型的锁,直到T释放A上的锁。
S锁是共享锁(读锁)。若事务T对数据对象A加上s锁,则只允许T读取A,但不能修改A,其他事务只能再对A加s锁(也即能读不能修改),直到T释放A上的s锁。
共分为三级封锁协议,如下:
- **一级封锁协议:**事务在修改数据R之前必须先对其加X锁,直到事务结束才释放。可解决丢失更新问题。
- 二级封锁协议:一级封锁协议的基础上加上事务T在读数据R之前必须先对其加S锁,读完后即可释放S锁。可解决丢失更新、读脏数据问题。
- 三级封锁协议:一级封锁协议加上事务T在读取数据R之前先对其加S锁,直到事务结束才释放
可解决丢失更新、读脏数据、数据重复读问题。
例题
例题1:“当多个事务并发执行时,任一事务的更新操作直到其成功提交的整个过程对其他事务都是不可见的”,这一性质通常被称为事务的()。
A. 原子性 B. 一致性 C. 隔离性 D. 持久性
答案:C
例题2:若事务T1 对数据D1加了共享锁,事务T2、T3 分别对数据D2、D3 加了排它锁,则事务T1对数据
();事务T2 对数据()
A.D2、D3 加排它锁都成功 B. D2、D3 加共享锁都成功
C.D2 加共享锁成功,D3 加排它锁失败 D.D2、D3 加排它锁和共享锁都失败
A.D1、D3 加共享锁都失败 B. D1、D3 加共享锁都成功
C.D1加共享锁成功,D3 加排它锁失败 D.D1 加排它锁成功,D3 加共享锁失败
答案:D C
数据故障与备份
安全措施
数据故障
数据备份
-
静态转储:即冷备份,指在转储期间不允许对数据库进行任何存取、修改操作;
优点是非常快速的备份方法、容易归档(直接物理复制操作);
缺点是只能提供到某一时间点上的恢复,不能做其他工作,不能按表或按用户恢复。
-
动态转储:即热备份,在转储期间允许对数据库进行存取、修改操作,因此,转储和用户事务可并发执行;
优点是可在表空间或数据库文件级备份,数据库扔可使用,可达到秒级恢复;
缺点是不能出错,否则后果严重,若热备份不成功,所得结果几乎全部无效。
-
完全备份:备份所有数据。
-
差量备份:仅备份上一次完全备份之后变化的数据。
-
增量备份:备份上一次备份之后变化的数据。
日志文件:在事务处理过程中,DBMS把事务开始、事务结束以及对数据库的插入、删除和修改的每一次操作写入日志文件。一旦发生故障,DBMS的恢复子系统利用日志文件撤销事务对数据库的改变,回退到事务的初始状态。
备份毕竟是有时间节点的,不是实时的,例如:上一次备份到这次备份之间数据库出现了故障,则这期间的数据无法恢复,因此,引入日志文件,可以实时记录针对数据库的任何操作,保证数据库可以实时恢复。
分布式数据库
局部数据库位于不同的物理位置,使用一个全局DBMS将所有局部数据库联网管理,这就是分布式数据库。其体系结构如下图所示:
分片模式
- 水平分片:将表中水平的记录分别存放在不同的地方
- 垂直分片:将表中的垂直的列值分别存放在不同的地方。
分布透明性
- 分片透明性:用户或应用程序不需要知道逻辑上访问的表具体是如何分块存储的。
- 位置透明性:应用程序不关心数据存储物理位置的改变。
- 逻辑透明性:用户或应用程序无需知道局部使用的是哪种数据模型。
- 复制透明性:用户或应用程序不关心复制的数据从何而来。
数据仓库与数据挖掘
数据仓库是一种特殊的数据库,也是按数据库形式存储数据的,但是目的不同:数据库经过长时间的运行,里面的数据会保存的越来越多,就会影响系统运行效率,对于某些程序而言,很久之前的数据并非必要的,因此,可以删除掉以减少数据,增加效率,考虑到删除这些数据比较可惜,因此,一般都将这些数据从数据库中提取出来保存到另外一个数据库中,称为数据仓库。
数据仓库四大特点
- 面向主题:按照一定的主题域进行组织的。
- 集成的:数据仓库中的数据是在对原有分散的数据库数据抽取、清理的基础上经过系统加工、汇总和整理得到的,必须消除源数据中的不一致性,以保证数据仓库内的信息是关于整个企业的一致的
全局信息。 - 相对稳定的:数据仓库的数据主要供企业决策分析之用,所涉及的数据操作主要是数据查询,旦某个数据进入数据仓库以后,一般情况下将被长期保留,也就是数据仓库中一般有大量的查询操作,但修改和删除操作很少,通常只需要定期的加载、刷新。
- 反映历史变化:数据仓库中的数据通常包含历史信息,系统记录了企业从过去某一时点(如开始应用数据仓库的时点)到目前的各个阶段的信息,通过这些信息,可以对企业的发展历程和未来趋势做出定量分析和预测。
数据仓库的结构通常包含四个层次,如下图所示:
- 数据源:是数据仓库系统的基础,是整个系统的数据源泉。
- 数据的存储与管理:是整个数据仓库系统的核心。
- 0LAP(联机分析处理)服务器:对分析需要的数据进行有效集成,按多维模型组织,以便进行多角度、多层次的分析,并发现趋势,
- 前端工具:主要包括各种报表工具、查询工具、数据分析工具、数据挖掘工具以及各种基于数据仓库或数据集市的应用开发工具。
数据挖掘的分析方法
- 关联分析:关联分析主要用于发现不同事件之间的关联性,即一个事件发生的同时,另一个事件也经常发生。
- 序列分析:序列分析主要用于发现一定时间间隔内接连发生的事件,这些事件构成一个序列,发
现的序列应该具有普遍意义。 - 分类分析:分类分析通过分析具有类别的样本特点,得到决定样本属于各种类别的规则或方法。分类分析时首先为每个记录赋予一个标记(一组具有不同特征的类别),即按标记分类记录,然后检查这些标定的记录,描述出这些记录的特征。
- 聚类分析:聚类分析是根据“物以类聚”的原理,将本身没有类别的样本聚集成不同的组,并且对每个这样的组进行描述的过程。
商业智能 BI
BI系统主要包括数据预处理、建立数据仓库、数据分析和数据展现四个主要阶段。
数据预处理是整合企业原始数据的第一步,它包括数据的抽取(Extraction)、转换(Transformation)和加载(Load)三个过程(ETL过程);
建立数据仓库则是处理海量数据的基础;
数据分析是体现系统智能的关键,一般采用联机分析处理(OLAP)和数据挖掘两大技术。联机分析处理不仅进行数据汇总/聚集,同时还提供切片、切块、下钻、上卷和旋转等数据分析功能,用户可以方便地对海量数据进行多维分析,数据挖掘的目标则是挖掘数据背后隐藏的知识,通过关联分析、聚类和分类等方法建立分析模型,预测企业未来发展趋势和将要面临的问题;
在海量数据和分析手段增多的情况下,数据展现则主要保障系统分析结果的可视化。
反规范化技术
反规范化技术:规范化设计后,数据库设计者希望牺牲部分规范化来提高性能
采用反规范化技术的益处:降低连接操作的需求、降低外码和索引的数目,还可能减少表的数目能够提高查询效率。
可能带来的问题:数据的重复存储,浪费了磁盘空间;可能出现数据的完整性问题,为了保障数据 的一致性,增加了数据维护的复杂性,会降低修改速度。
具体方法:
(1) 增加冗余列:在多个表中保留相同的列,通过增加数据冗余减少或避免查询时的连接操作。
(2) 增加派生列:在表中增加可以由本表或其它表中数据计算生成的列,减少查询时的连接操作并避免计算或使用集合函数。
(3) 重新组表:如果许多用户需要查看两个表连接出来的结果数据,则把这两个表重新组成一个表来减少连接而提高性能。
(4) 水平分割表:根据一列或多列数据的值,把数据放到多个独立的表中,主要用于表数据规模很大、表中数据相对独立或数据需要存放到多个介质上时使用。
(5) 垂直分割表:对表进行分割,将主键与部分列放到一个表中,主键与其它列放到另一个表中,在查询时减少I/O次数
大数据
特点:大量化、多样化、价值密度低、快速化。
大数据和传统数据的比较如下:
要处理大数据,一般使用集成平台,称为大数据处理系统,其特征为:高度可扩展性、高性能、高度容错支持异构环境、较短的分析延迟、、易用且开放的接口、较低成本、向下兼容性
例题
例题1:为了保证数据库中数据的安全可靠和正确有效,系统在进行事务处理时,对数据的插入、删除或修改的全部有关内容先写入( );当系统正常运行时,按一定的时间间隔,把数据库缓冲区内容写入( );当发生故障时,根据现场数据内容及相关文件来恢复系统的状态。
A.索引文件 B.数据文件 C.日志文件 D.数据字典
A.索引文件 B.数据文件 C.日志文件 D.数据字典
答案:C B
解析:在数据库中引入了日志文件,记录系统进行事务处理时的一切操作,但只记录操作内容数据是存放在数据文件中,恢复现场时,依据日志文件可知有哪些操作,依据数据文件可知操作的数据是哪些
例题2:数据仓库中数据( )的特点是指数据一旦进入数据仓库后,将被长期保留并定期加载和刷新可以进行各种查询操作,但很少对数据进行修改和删除操作。
A.面向主题 B.集成性 C.相对稳定性 D.反映历史变化
答案:C
SQL语言
这里都是DDL的内容 不再写
例题
例题1:
答案:A A D
例题2:
答案:C A D B
NoSQL技术
NoSQL最常见的解释是 Non-Relational,NotOnlySQL 也被很多人接受。NoSQL 仅仅是一个概念,泛指非关系型的数据库,区别于关系数据库,它们不保证关系数据的ACID 特性。
按照所使用的数据结构的类型,一般可以将 NoSQL数据库分为以下4种类型:
- 列式存储数据库:行式数据库即传统的关系型数据库,数据按记录存储,每一条记录的所有属性存储在一行。列式数据库是按数据库记录的列来组织和存储数据的,数据库中每个表由一组页链的集合组成,每条页链对应表中的一个存储列。
- 键值对存储数据库:键值存储的典型数据结构一般为数组链表:先通过Hash算法得出Hashcode ,找到数组的某一个位置,然后插入链表。
- 文档型数据库:文档型数据库同键值对存储数据库类似。该类型的数据模型是版本化的文档,半结构化的文档以特定的格式存储,比如JSON。
- 图数据库:图形结构的数据库同其他采用行列以及刚性结构的SQL数据库不同,它使用灵活的图形模型,并且能够扩展到多个服务器上。NoSQL数据库没有标准的查询语言(SQL),因此进行数据库查询需要指定数据模型。
目前业界对于NOSQL并没有一个明确的范围和定义,但是它们普遍存在下面一些共同特征:·
- 易扩展:去掉了关系数据库的关系型特性。数据之间无关系,这样就非常容易扩展。·
- 大数据量,高性能: NOSQL数据库都具有非常高的读写性能,尤其在大数据量下。这得益于它的无关系性,数据库的结构简单。
- 灵活的数据模型: NOSQL无须事先为要存储的数据建立字段,随时可以存储自定义的数据格
- ·高可用:NoSQL在不太影响性能的情况下,就可以方便地实现高可用的架构,有些产品通过复制模型也能实现高可用。
NoSQL整体框架分为4 层,由下至上分为数据持久层、数据分布层、数据逻辑模型层和接口层。
(1) 数据持久层定义了数据的存储形式,主要包括基于内存、硬盘、内存和硬盘接口、订制可插拔4 种形式。
(2) 数据分布层定义了数据是如何分布的,相对于关系型数据库,NOSQL可选的机制比较多,主要有3种形式:一是CAP支持,可用于水平扩展;二是多数据中心支持,可以保证在横跨多数据中心时也能够平稳运行;三是动态部署支持,可以在运行着的集群中动态地添加或删除结点。
(3) 数据逻辑层表述了数据的逻辑表现形式。
(4) 接口层为上层应用提供了方便的数据调用接口,提供的选择远多于关系型数据库。NOSQL分层架构并不代表每个产品在每一层只有一种选择。相反,这种分层设计提供了很大的灵活性和兼容性,每种数据库在不同层面可以支持多种特性。
NoSQL 数据库在以下这几种情况比较适用:
-
数据模型比较简单:
-
需要灵活性更强的T系统:
-
对数据库性能要求较高:
-
不需要高度的数据一致性:
-
对于给定 key,比较容易映射复杂值的环境