XML数据库是一种支持对XML格式文档进行存取管理和数据查询的数据库。XML数据库与传统数据库相比有以下不同和优势。
1)XML数据库能够对半结构化数据进行有效的存取和管理。
2)提供对标签和路径的操作
3)当数据本身具有层次特征时,由于XML数据格式能够以清晰表达数据的层次特征,因此,XML数据库便于对层次化的数据进行操作。
数据仓库
数据仓库是一个面向主题、集成的、非易失的、且随时间变化的数据集合,用来支持管理人员决策。
决策支持系统是辅助决策者通过数据、模型和知识,以人机交互方式进行半结构化或非结构化决策的计算机应用系统。
数据挖掘就是从数据库中的所有数据记录中归纳总结出知识,让人们从抽象复杂的数据中看到客观规律,以便做出决策。数据挖掘是从人工智能机器学习中发展起来的。它研究各种方法和技术,从大量的数据中挖掘出有用的信息和知识。
机器学习是研究使计算机模拟或实现人类的学习行为,即让计算机自动获取知识。
通配符
在SQL Server 2008 的like语句中,有以下特殊字符:下划线_,百分号%,方括号[],尖号^>。
SQL Server 2008 提供了4个排名函数
RANK():返回结果集的分区内每行的排名。行的排名是相关行之前的排名数加一。如果两个或多个行与一个排名关联,则每个关联行将得到相同的排名。
DENSE RANK):返回结果集分区中行的排名,在排名中没有任何间断。行的排名等于所讨论行之前的所有排名数加一。如果有两个或多个行受同一个分区中排名的约束,则每个约束行将接收相同的排名。
ROW_ NUMBER():返回结果集分区内行的序列号,每个分区的第一行从开始。ORDER BY子句可确定在特定分区中为行分配唯一ROW NUMBER的顺序。
NTILE():将有序分区中的行分发到指定数目的组中。各个组都有编号,编号从一开始。对于每一行,NTILE将返回此行所属的组的编号。
ER图向关系模式转换
涉及到两个方面:1)实体的转换 2) 实体间联系的转换。
实体的转换:在从ER图转换为关系模式时,一个实体就转换为一个关系模式,实体的属性就是关系模式的属性,实体的键就是关系的主键。
实体间联系的转换:实体间存在三种联系,即1:1(一对一),1:n(一对多),m:n(多对多)。
在从ER向关系模式转换规则如下:
1) 1:1(一对一)联系
方法一:联系转换为独立的关系模式;模式的属性有联系本身的属性及两个实体的键构成;主键由两个实体中的任意一个键构成。
方法二:联系与一端的实体的关系模式合并,即将联系的属性加入到实体的关系模式内,主键不变。
2)1:n(一对多)联系
方法一:联系转换为独立的关系模式;模式的属性由联系本身的属性及两个实体的键构成;主键由n端实体的键组成。
方法二:与n端的实体的关系模式合并,即将联系的属性加入到实体的关系模式内,主键不变。
3)m:n(多对多)联系转换成新的独立的模式,模式的属性由联系本身的属性及两个实体的键构成,主键由两端实体的键组合而成。
例:
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-D1GztqES-1638533907343)(C:\Users\lenovo\AppData\Roaming\Typora\typora-user-images\image-20211125221752229.png)]
有关数据备份(转储)工作:
静态存储可以保证数据的有效性,但是,却降低数据库的可用性,动态转储可以提高数据库的可用性,但数据的有效性得不到保证。为了保证函数据的一致性,需使用日志文件和动态存储结合使用。在制定备份策略是,需要考虑备份空间
差量转储是对最近一次数据库完全存储以来发生的数据库变化进行存储。
差量转储和完全存储相比速度快,占用空间小;
差量转储和增量转储相比速度慢、占用空间多,但是恢复速度快
增量转储只复制上次转储后发生变化的文件或数据块。
增量转储所需要的时间和空间都比较短,但增量转储数据只能和完全转储配合,才能对数据库进行恢复。
增量转储的恢复时间比完全转储要长。
在SQL Server 2008 数据库中,只有tempdb数据库不需要备份,其他的都需要备份。tempdb只是一个临时数据库,每次SQL Server 启动时都会重新新建tempdb数据库。
分布式数据库
最基本特征是本地自治、非集中式管理以及高可用性。位置独立性、数据分片独立性和数据复制独立性形成了分布式数据库系统中的分布透明性
并行数据库中的数据划分与并行算法中
范围划分会引起数据分布不均匀,导致并行处理能力下降。
分类算法
分类器的构造方法有统计方法,机器学习方法,神经网络方法等。
统计方法包括贝叶斯法和非参数法;机器学习方法包括决策树法和规则归纳法;神经网络方法只要是BP算法。
注:K-means属于聚类算法。
在三层浏览器/服务器体系结构的数据库应用系统中,
数据库位于数据库服务器,通过DBMS完成具体的数据储存和数据存取等数据管理功能。触发器是一种特殊测存储过程,他是存储在数据库中供所有用户调用的子程序。
检查点技术的最大特点是
最大限度的减少了数据库完全恢复时所必须执行的日志部分
聚类算法
对一个数据集的数据进行分组,使得每一组内的数据尽可能相似而不同组间的数据尽可能的不同,这样数据挖掘方法称为聚类算法。
索引
索引的使用要恰当好处,其使用原则一般如下:
1.经常在查询中作为条件被使用的列,应当为其建立索引
2.频繁进行排序或分组的列,应当为其建立索引
3.一个列的值域很大时,应为其建立索引
4.如果待排序的列有多个,应在这些列上建立复合索引
5.可以使用系统工具来检查索引的完整性,必要时进行修复。
数据库备份
Sql server 2008 使用BACKUP关键字进行数据库备份
在备份语句(BACKUP)中默认情况下使用完整数据库备份,二关键子DIFFERENTIAL专门改变备份为差异备份。
另
系统管理员角色是sysadmin
数据库应用系统的实施工作包括
创建数据库、装载数据、编写与调试应用程序、数据库试运行
顺序图强调的是时间,通信图强调的是空间。
+++
DFD数流图表示法
在DFD中,数据流用箭头表示,处理用矩形框表示,数据存储用矩形框表示,外部项用矩形框或者平行四边形框表示。
从功能角度
可以将数据库应用系统划分为4个层次即表示层、业务逻辑层、数据访问层、数据持久层。
其中,表示层概要设计的主要任务是进行人机界面设计;
业务逻辑层概要设计的主要任务是树立DBAS的各项业务活动,将其表示为各种系统框架;
数据访问层概要设计的主要任务就是针对DBAS的数据处理需求设计用于操作数据库的各项事务;
数据持久层概要设计的主要任务进行应用系统的存储结构设计。
用户自定义函数
主要包括标量函数和表值函数两类
如果要使某用户可以将授予他的权限再转授给其他用户,那么在授权语句中需要加上WITH GRANT OPTION 选项
非预期的事务内部故障是不能由事务程序处理的
如运算溢出故障、并发事务死锁故障、违反了某些完整性限制而导致的故障等。
数据库的运行维护与优化包括:
·数据库的转储和恢复
·数据库的安全性和完整性控制
·数据库性能的监控分析和改进
·数据库的重组和重构
数据库系统运行需要依赖服务器,操作系统、存储、网络等因素
当这些数据库环境出现瓶颈时会导致数据库运行缓慢,甚至无法完成业务。
1)外部调整包括CPU调整和网络调整。当数据库操作对CPU性能的要求超过数据库服务器的CPU性能时,数据库性能就受到CPU的限制,使数据库操作变慢
2)通过调整相关参数控制数据库的内存分配,也可以很大程度的改善数据库系统的性能。
3)调整磁盘I/O。数据库性能优劣的一个重要度量是响应时间,二I/O时间是响应时间是最大组成部分。因此,可以通过令I/O时间最小化,减少磁盘上的文件竞争带来的瓶颈等方法来改善数据库系统的性能。
4)调整竞争。多个进程对相同的资源发出申请时,导致了竞争的产生,从而引起服务器反应的缓慢。
5)效率低下的SQL语句常常是系统效率不佳的主要原因。因此采用高效率的SQL语句,可以显著减少服务器的反应时间,提高服务器处理的速度。
分布式数据库的数据分配有
集中式:所有数据片段都安排在一个场地
分割式:所有全局数据数据有且只有一份,他们被分割成若干片段,每个片段被分配在一个特定场合上
全复制式:全局数据有多个副本,每个场地都有一个完整的数据副本
混合式:全局数据被分为若干个数据子集,每个子集被安排在一个或者多个不同的场地但是每个场地未必保存所有数据