目录
并发控制
事务:由一系列操作组成,要么全做,要么全不做
原子性:要么全做,要么全不做
一致性:事务发生后数据是一致的
隔离性:一个事务的更新操作过程对其他事务是不可见的
持续性:事务操作的结果是持续的
并发控制的三个问题
丢失更新、不可重复读、读脏数据
分别使用一二三级封锁协议可以解决
一级封锁协议先给事务加写锁(排他锁),事务结束才解锁
二级封锁协议在一级封锁协议的基础上增加了读锁(共享锁),读完后释放
三级封锁协议跟二级封锁协议相似,但是直到事务结束才释放
数据库故障
分为四种故障,其中事务内部故障是由于自生逻辑或算法溢出导致的,系统故障可能是由于操作系统故障、停电等导致的、介质故障一般是物理介质损坏
数据备份
静态转储(冷备份)期间是不允许对数据库进行存取、修改操作的,转储速度快、方便,但是只能恢复到一个时间点
动态转储(热备份)期间允许进行存取、修改,可以和事务并发执行,可以进行表空间或数据库文件级备份,但是如果出错结果将全部无效
完全备份:备份全部数据
差量备份:备份上一次完全备份之后产生变化的数据
增量备份:备份上一次备份后产生变化的数据,不管上一次是不是完全备份
日志文件:事务处理过程中,DBMS把事务开始、结束以及对数据库的插入、修改、删除的操作计入日志文件,一旦发生故障,DBMS的修复子系统利用日志文件撤销事务对数据库的改变,回到事务初始阶段
分布式数据库
将多个局部数据库放在不同位置,实验全局DBMS对全部数据库联网管理
水平分片就是按记录分片
垂直分片就是按列分片
分片透明性:用户不需要直到是怎么分片存储的
位置透明性:应用程序不关心数据存储物理位置的改变
逻辑透明性:用户或应用无需知道局部使用的是哪种数据模型
复制透明性:用户或应用程序不关心复制的数据从何而来
数据仓库
目的:不用于增删改查、面向主题,用于大数据挖掘、数据分析等,集成不同表,相对稳定,反映历史的变化
数据挖掘
四种分析方法:
关联分析:分析不同事件的关联性
序列分析:发现一定时间间隔内连续性发生的事件,这些事件构成一个序列
分类分析:通过分析具有类别的样本特点,得到决定样本属于各个类别的规划或方法,分类分析时首先为每一个记录赋予一个标记,即按标记分类记录,然后检查这些标定的记录,描述记录的特征
聚类分析:将本身没有类别的样本聚集成不同的组,并且对每个这样的组进行描述的过程
商业智能
主要包括:数据预处理、建立数据仓库、数据分析、数据展现
前两步用于建立数据仓库
后两步用于数据分析
数据预处理包括:数据抽取、转换、加载
数据分析一般采用联机分析处理和数据挖掘两大技术
数据展现主要保证系统分析结果的可视化
反规范化技术
主要手段包括:增加派生性冗余列、增加冗余列、重新组表、分割表
主要就是增加冗余,提高查询效率,为规范化查询的逆操作
大数据
特点:量大、多样性、价值密度低、快速化
数据量在PB级以上,需要深度分析、需要集群平台
集群平台特征:高度可扩展性、高性能、高容错、支持异构环境、分析延迟短、易用且开放的接口、成本低、向下兼容