第四章.数据库系统

(ps:本人的学习记录,用于上下班途中背诵记忆的,若有侵权联系我删除)

4.1数据库基础知识

4.1.1基础概念

  • 数据库系统DBS:是一个采用了数据库技术,有组织地、动态地存储大量相关数据,方便多用户访问的计算机系统。由下面四个部分组成
    • 数据库:统一管理、长期存储在计算机内的,有组织的相关数据的集合
    • 硬件:构成计算机系统包括存储数据所需要的外部设备
    • 软件:操作系统、数据库管理系统以及应用程序
    • 人员:系统分析和数据库设计人员、应用程序员、最终用户、数据库管理员DBA
  • 数据库管理系统DBMS
    • 实现对共享数据有效的组织、管理和存取
    • 包括数据定义、数据库操作、数据库运行管理、数据的存储管理、数据库的建立和维护等

4.1.2数据库的分类

数据库管理系统的类型通常有多个分类标准。如按数据模型分类、按用户数分类、按数据库分布站点分类等。

4.2数据库模式与范式

4.2.1数据库结构与模式

在这里插入图片描述

1、三级抽象
  • 物理级数据库:数据库的底层表示,它描述数据的实际存储组织,是最接近于物理存储的级,又称内部视图。物理级数据库由内部记录组成,物理级数据库并不是真正的物理存储,而是最接近于物理存储的级。
  • 概念级数据库:介于用户级和物理级之间,是所有用户视图的最小并集,是数据库管理员可看到和使用的数据库,又称DBA视图。概念级数据库由概念记录组成,一个数据库可有多个不同的用户视图,每个用户视图由数据库某一部分的抽象表示所组成。一个数据库应用系统只存在一个DBA 视图,它把数据库作为一个整体的抽象表示。
  • 用户级数据库:是最接近用户的一级数据库,是用户可以看到和使用的数据库,又称用户视图。用户级数据库主要由外部记录组成,不同的用户视图可以互相重叠,用户的所有操作都是针对用户视图进行的。
2、三级模式
  • 内模式:对应物理级数据库(具体物理存储文件),主要关注数据的存放
  • 概念模式:对应数据库中的表这一级别(通常使用的基本表),将数据分成若干张表
  • 外模式:对应数据库中的视图,提供给用户使用,对数据的控制有着更加灵活的处置方式。
3、两级映射
  • 概念模式-内模式映射:内部的存储和表的映射关系,当数据的物理存储改变时,应用程序不需要改变。
  • 外模式-概念模式映射:表与视图之间的映射关系,当数据的逻辑结构改变时,应用程序不需要改变。

4.2.2数据库模式

4.3 数据库设计

4.3.1数据库设计过程

在这里插入图片描述

过程产出物说明
需求分析数据流图
数据字典
需求说明书
分析数据存储的要求,包含数据处理要求和数据要求整理
概念结构设计用户数据模型:ER模型(实体-属性图)与DBMS(物理实现)无关
逻辑结构设计关系模式把E-R模型转换为关系模式,即转换成实际表和表中的列熟悉,考虑数据库设计约束
物理设计考虑DBMS特性等,生成物理数据库

4.3.2E-R模型

在这里插入图片描述

1、E-R模型

即实体-联系模型,包含数据模型的实体、属性、实体间的联系三个部分

  • 实体:长方形表示
  • 属性:椭圆表示,一般没有,可以分为以下几种
    • 简单属性和复合属性:按属性是否可以分割
    • 单值属性和多值属性:按属性是否有多个取值
    • NULL属性:无意义属性
    • 派生属性:可以由其他属性生成
  • 联系:菱形表示,联系两端要标注联系类型:一对一1:1、一对多1:n、多对多m:n
2、ER模型集成
  • 集成的方法
    • 多个局部ER图一次集成
    • 逐步集成,用累加的方式一次集成两个局部ER模型
  • 集成产生的冲突和解决办法
    • 属性冲突
      • 包括属性域冲突和属性取值冲突
      • 例:性别字段,在一个模型中为以男女为代表,另一个模型中为true和false为代表
    • 命名冲突
      • 包括同名异义和异名同义
      • 例:老师在不同模型中的名字不同,但意义相同
    • 结构冲突
      • 包括同一对象在不太应用中具有不同的抽象,以及同一实体在不同局部ER图中所包含的属性个数和树形排列次序完全不同
      • 例:老师在一个模型中是一个实体,在一个模型中是一个属性
3、ER模型转关系模型
  • 关系模式也是数据库中常用的表,包括视图的属性,标识出实体的主键和外键,例如S(Sno,Sname,SD,Sage,Sex)表示学生S关系模式,属性为学号Sno、姓名Sname、系SD、年龄Sage、性别Sex,学号Sno为主键
  • 一个实体转换为一个关系模式
  • 联系转换:
    • 1:1联系:可转为单独的关系模式,或者可以转换为两个关系模式中r任意一个实体中的一个属性,故一对一的联系至少有2个关系模式
    • 1:n联系:可转为单独的关系模式,在n端加入1端实体的主键,或者可以转换为关系模式中多的那个实体的一个属性,故一对多的联系至少有2个关系模式
    • m:n联系:转为1个单独的关系模式,其主键是m和n端的联合主键,故多对多的联系至少有3个关系模式
    • 三个以上实体间的多对多的联系,联系至少转换为1个关系模式,主键为三个以上实体的主键

4.3.3关系代数

在这里插入图片描述

1、并

把两个集合的所有记录合并在一起,并且相同的记录只显示一次

在这里插入图片描述

2、交

把两个集合的内容相同的记录显示出来

请添加图片描述

3、差

S1-S2:结果是S1表中有S2表中没有的那些记录
在这里插入图片描述

4、笛卡尔积

将两个集合的每一条记录一一拼接在一起,产生的结果包括S1和S2中所有属性列,且S1中每条记录一次和S2中所有记录组合成一条记录。

笛卡尔积的属性数是两个集合的属性数之和,记录数是两个集合的记录数之积

在这里插入图片描述

5、投影

是按条件选择某关系模式中的某列

在这里插入图片描述

6、选择

是按条件选择某关系模式中的某条记录

在这里插入图片描述

7、连接(自然连接)

选择两个集合中关联的部分,相同的属性列只显示一次,显示两个关系模式中属性相同且值相同的记录,若没有标明连接关系,则默认表示两个集合中相等的列

连接可以转换为笛卡尔积和投影、选择的组合,例如:
S 1 ⊳ ⊲ S 2 = π S 1. S n o , S 1. S n a m e , S 1. S d e p t , S 2. A g e [ σ S 1. S n o = S 2. S n o ( S 1 × S 2 ) ] S1\rhd\lhd S2=\pi_{S1.Sno,S1.Sname,S1.Sdept,S2.Age}[\sigma_{S1.Sno=S2.Sno}(S1\times S2)] S1S2=πS1.Sno,S1.Sname,S1.Sdept,S2.Age[σS1.Sno=S2.Sno(S1×S2)]
在这里插入图片描述

8、效率

关系代数运行的效率问题,有一个通用原则,即存在联接操作与选择操作的,尽可能早完成选择操作,这样能降低参与联接操作的数量,极大提升运算效率。

  • 选择>联接
  • 自然连接>笛卡尔积

4.3.4规范化理论

1、函数依赖
  • 设R(U)是属性U上的一个关系模式,X和Y是U的自己,r为R的任一关系,如果对于r中的任意两个元组u、v,只要有u[X]=v[X],就有u[Y]=v[Y],则称X函数决定Y,或称Y函数依赖于X,记为X→Y
  • 部分函数依赖

在这里插入图片描述

​ A、B的组合键确定C,即A可以决定C;即主键是两个函数的组合键,主键的某一部分可以确定某一部分

  • 传递函数依赖

在这里插入图片描述

若A决定B,B决定C,则A可以决定C,前提是B不能决定A即A和B不等价,否则A与B等价

  • 公理系统规则
    • 传递律

      例:若A→B,B→C,则A→C

    • 自反律

      例:若Y⊆X⊆U,则X→Y

      注:Y⊆X表示Y是X的子集或等于X

    • 合并规则

      例:若A→B,A→C,则A→BC

    • 分解规则

      例:若A→B,C⊆B,则A→C

2、价值与用途

非规范化的关系模式,可能存在的问题包括:数据冗余、更新异常、插入异常、删除异常

3、键
  • 超键:唯一标识此表的属性的组合,例:(学号,姓名)→性别,(学号,姓名)则为超键
  • 候选键:超键去掉冗余属性后成为候选键,候选键可以为集合,例:(学号,姓名)→性别,学号→性别,则学号为候选键
  • 主键:任选一个候选键即可作为主键,例:学号→性别,身份证号→性别,则选择学号和身份证号中任意一个为主键
  • 外键:其他关系的主键
  • 主属性:候选键内的属性为主属性,其他属性为非主属性
  • 求候选键:
    • 方法一
      • 将关系模式的函数依赖关系用“有向图”的方式表示
      • 找入度为0的属性,并以该属性集合为起点,尝试遍历有向图,若能正常遍历图中所有节点,则该属性集即为关系模式的候选键
      • 若入度为0的属性集不能遍历图中所有结点,则需要尝试性的将一些中间结点(既有入度,也有出度的结点)并入入度为0的属性集中,直至该集合能遍历所有节点,则该属性集即为关系模式的候选键
      • 注:若单一结点无法遍历所有结点,则候选键可以为多个结点组合的集合
    • 方法二:
      • 找出入度为0的属性,即只在→左边的属性
      • 遍历所有的函数依赖确定候选键
      • 例如:
        • 给定关系模式R(U,F),U={A,B,C,D},F={AB→C,CD→B}。关系R中候选键为(ACD和ABD),且分别有(0个非主属性和4个主属性)
        • 解答:
          • 入度为0的属性有A和D,则A和D为主属性
          • 由于AB→C,则AB也为主属性,则ABD为候选键
          • 由于CD→B,则CD也为主属性,则ACD为候选键
4、约束
  • 实体完整性约束:即主键约束,主键值不能为空,也不能重复
  • 参照完整性约束:即外键约束,外键必须是其他表中已经存在的主键的值,或为空
  • 用户自定义完整性约束:自定义表达式约束
5、范式

在这里插入图片描述

  • 1NF:第一范式
    • 属性值都是不可分的原子值:在关系模式R中,当且仅当所有域只包含原子值,即每个分量都是不可再分的数据项,每个属性都是简单属性,不是复合属性,则称R是第一范式。
    • 通俗地说,第一范式就是表中不允许有小表的存在
    • 消除非主属性对候选键的部分依赖,则会达到第二范式
  • 2NF:第二范式
    • 当且仅当R是1NF,且每一个非主属性完全依赖主键(不存在部分依赖,即主键不是复合主键)时,则称R是第二范式。
    • 2NF是在1NF的基础上,表中的每一个非主属性不会依赖复合主键中的某一个列
    • 消除非主属性对候选键的传递依赖,则会达到第三范式
  • 3NF:第三范式
    • 当且仅当R是2NF,且表中没有非主属性传递依赖时,则称表是第三范式。
    • 非主属性不存在传递依赖
    • 消除非主属性对候选键的传递依赖,则会达到BC范式
  • BCNF:BC范式
    • BCNF是在3NF的基础上进一步消除主属性对于键的部分函数依赖和传递依赖,设R是一个关系模式,F是它的依赖集,R属于BCNF当且仅当其F中每个依赖的决定因素必定包含R的某个候选键
    • 通俗地说,就是在每一种情况下,每一个依赖的左边决定因素都必然包含候选键
  • 主属性与非主属性
    • 首先找出候选键集合
    • 属性中不在候选键中的则是非主属性,在则是主属性
  • 范式在级别的越来越高,数据规范化越来越规范,往往会把数据表进行拆分,拆分得越来越细,则会带来性能问题
6、模式分解
  • 保持函数依赖分解:
    • 分解前有哪些函数依赖,分解后这些依赖仍然存在,注意要消除掉冗余依赖(如传递依赖)
    • 例如:R(A,B,C),依赖集F(A→B,B→C,A→C),则分解后为R1(A,B)和R2(B,C),A→C为冗余依赖
  • 无损分解
    • 有损:不能还原,无损:可以还原
    • 无损联接分解:指将一个关系模式分解成若干个关系模式后,通过自然连接和投影等运算仍能还原到原来的关系模式
  • 无损分解判断方法(只适用于一分为二的模式分解)

在这里插入图片描述

  • 多个模式的无损分解判断
    • 在原关系模式中存在的依赖,且依赖两端都在同一个关系模式中则为无损分解
    • 例如:成绩(学号,姓名,课程号,课程名,分数),其函数依赖为学号→姓名、课程号→课程名、(学号,课程号)→分数,若将其分解为:成绩(学号,课程号,分数),学生(学号,姓名),课程(课程号,课程名),该分解是否为无损分解
    • 解答:
      • 由于有学号→姓名,则成绩可以为成绩(学号,课程号,分数,姓名)
      • 由于有课程号→课程名,则成绩可以为成绩(学号,课程号,分数,姓名,课程名)
      • 成绩(学号,课程号,分数,姓名,课程名)满足(学号,课程号)→分数
7、反规范化技术

由于规范化会使表不断的拆分,从而导致数据表过多。这样虽然减少了数据冗余,提高了增、删、改的速度,但会增加查询的工作量。系统需要进行多次连接,才能进行查询操作,使得系统效率大大下降

  • 反规范化技术手段
    • 增加派生性冗余列
    • 增加冗余列
    • 重新组表
    • 分割表

4.4事务管理

4.4.1并发控制

在这里插入图片描述

1、事务

事务:由一系列操作组成,这些操作要么全做,要么全不做,拥有四种特性:

  • 原子性:事务不可拆分,要么全做,要么全不做
  • 一致性:在事务执行前后,数据保持一致的状态
  • 隔离性:事务之间是独立的,互不影响
  • 持续性:事务执行后,其结果和影响是持续的

为了实现原子性和持久性的最为简单的策略是“影子拷贝”。

  • 影子拷贝:该策略假设在某一个时刻只有一个活动的事务,首先对数据库做副本(称为影子副本),并在磁盘上维护一个dp_pointer指针,指向数据库的当前副本。对于要执行写操作的数据项,数据库系统在磁盘上维护数据库的一个副本,所有的写操作都在数据库副本上执行,而保持原始数据库不变,如果在任一时刻操作不得不中止,系统仅需要删除新副本,原数据库副本没有受到任何影响。
2、并发会产生的问题
  • 丢失更新:事务1对数据A进行修改并写回,事务2也对A进行了修改并写回,此时事务2写回的数据会覆盖事务1写回的数据,就丢失了事务1对A的更新,即对数据A的更新会被覆盖
  • 不可重复读问题:事务2读A,而后事务1对数据A进行了修改并写回,此时若事务2再读A,发现数据不对,即一个事务重复读A两次,会发现数据A有误
  • 读“脏”数据:事务1对数据A进行修改后,事务2读数据A,而后事务1回滚,数据A恢复了原来的值,那么事务2对数据A做的事事无效的,读到了脏数据。
3、并发控制方法
  • X锁是排它锁(写锁)。若事务T对数据对象A加上X锁,则只允许T读取和修改A,其他事务都不能再对A加任何类型的锁,知道T释放A上的X锁

  • S锁是共享所(读锁)。若事务T对数据对象A加上S锁,则只允许T读取A,但不能修改A,其他事务智能再对A加S锁(也即能读不能修改),直到T释放A上的S锁

  • 一级封锁协议:事务T在修改数据R前必须先对其加X锁,直到事务结束才可以释放,可防止丢失更新

  • 二级封锁协议:一级封锁协议的基础上,加上事务T在读取数据R之前先对其加S锁,读完后即可释放S锁,可防止丢失更新,还可防止读“脏”数据

  • 三级封锁协议:一级封锁协议加上事务T在读取数据R之前先对其加S锁,直到事务结束才释放,可防止丢失更新、防止读“脏”数据与防止数据重复读

  • 两段锁协议:可串行化的,可能会发生死锁

4.5数据库安全

4.5.1数据库安全措施

措施说明
用户标识和鉴定最外层的安全保护措施,可以使用用户账户、口令和随机数检验等方式
存取控制对用户进行授权,包括操作类型(如查找、插入、删除、修改等动作)和数据对象(主要是数据范围)的权限
密码存储和传输对远程终端信息用密码传输
视图的保护对视图进行授权
审计使用一个专用文件或数据库,自动将用户对数据库的所有操作记录下来

4.5.2故障与恢复

故障关系故障原因解决方法
事务本身的可预期故障本身逻辑在程序中预先设置Rollback语句
事务本身的不可预期故障算术溢出、违反存储保护由DBMS的恢复子系统通过日志,撤销事务对数据库的修改,回退到事务初始状态
系统故障系统停止运转通常使用检查点法
介质故障外存被破坏一般使用日志重做业务

4.6数据库备份与恢复

4.6.1根据备份方式分类

  • 冷备份:也称静态备份,是将数据库正常关闭,在停止状态下,将数据库的文件全部备份(复制)下来。
    • 优点:非常快速的备份方法、容易归档(直接物理复制操作)
    • 缺点:只能提供到某一时间点上的恢复,不能做其他工作,不能按表或用户恢复
  • 热备份:也称动态备份,是利用备份软件,在数据库正常运行的状态下,将数据库中的数据文件备份出来
    • 优点:可在表空间或数据库文件级备份,数据库仍可使用,可以达到秒级恢复
    • 缺点:不能出错,否则后果严重,若热备份不成功,所得结果几乎全部无效
  • 比较

在这里插入图片描述

4.6.2根据备份数据量分类

  • 完全备份:备份所有数据
  • 差量备份:仅备份上一次完全备份之后变化的数据
  • 增量备份:备份上一次备份之后变化的数据
  • 日志文件:在事务处理过程中,DBMS把事务开始、事务结束以及对数据库的插入、删除和修改的每一次操作和被修改后的新值写入日志文件。一旦发生故障,DBMS的恢复子系统利用日志文件撤销事务对数据库的改变,回退到事务的初始状态。事务日志是针对数据库改变所做的记录,它可以记录针对数据库的任何操作,并将记录结果保存在独立的文件中。

4.6.3根据转储分类

  • 静态海量转储:在系统中无运行事务时进行,每次转储全部数据库
  • 静态增量转储:在系统中无运行事务时进行,每次只转储上一次转储后更新过的数据
  • 动态海量转储:转储期间允许对数据库进行存取或修改,每次转储全部数据库
  • 动态增量转储:转储期间允许对数据库看进程存取或修改,每次只转储上一次转储后更新的数据

4.7分布式数据库

局部数据库位于不同的物理位置,使用全局DBMS将所有局部数据库联网管理,这就是分布式数据库。

4.7.1体系结构

在这里插入图片描述

4.7.2其他概念

1、分布透明性
  • 分片透明性:用户或应用程序不需要知道逻辑上访问的表具体是如何分块存储的
    • 水平分片:将表中水平的记录分别存放在不同的地方
    • 垂直分片:将表中的垂直的列值分别存放在不同的地方
    • 混合分片:水平和垂直分片融合
  • 位置透明性:用户或应用程序不关心数据存储物理位置
  • 局部数据模型透明性(逻辑透明):用户或应用程序无需知道局部使用的是哪种数据模型
  • 复制透明性:用户或应用程序不关心复制的数据从何而来。
2、分布式数据库管理系统
  • 组成
    • LDBMS
    • GDBMS
    • 全局数据字典
    • 通信管理(CM)
  • 结构
    • 全局控制集中的DDBMS
    • 全局控制分散的DDBMS
    • 全局控制部分分散的DDBMS

4.8数据库优化

在这里插入图片描述

4.8.1集中式数据库优化

1、硬件系统

从CPU、内存、I/O(硬盘、阵列)、网络等方面分析优化

2、系统软件

涉及参数设置,如进程优先级、CPU使用权、内存使用配置等

3、数据库设计
  • 表与视图:表的规划和物化视图建立
  • 索引:对常查询字段建索引,对常修改字段避免建立索引
  • SQL优化:
    • 以不相干子查询替代想干子查询
    • 只检索需要的列
    • 用带IN的条件子句等价替换OR子句
    • 经常提交COMMIT,以尽早释放锁
    • 尽可能减少多表查询
4、应用软件

从数据库连接池方面进行优化

4.8.2分布式数据库优化

1、集中式数据库优化

分布式数据库优化,需要从集中式数据库优化的几个角度进行优化

2、通信代价
  • 全局查询树的变换
  • 多副本策略
  • 查询树的分解
  • 半连接与直接连接

4.9数据仓库和数据挖掘

4.9.1数据仓库

1、数据仓库形成过程

在这里插入图片描述

数据仓库是一种特殊的数据库,也是按数据库形式存储数据的,但是目的不同。

2、特点
  • 面向主题的:按主题组织数据,用来做数据分析
  • 集成的:记录集成式的数据
  • 相对稳定的:指对进入数据仓库的数据尽量不做修改删除操作,一般不会做修改
  • 反映历史变化:会定期导入新的数据

4.9.2数据挖掘

1、定义

数据挖掘(Data Mining)技术是人们长期对数据库技术进行研究和开发的结果。起初各种商业数据是存储在计算机的数据库中的,然后发展到可对数据库进行查询和访问,进而发展到对数据库的即时遍历。

2、常用技术
  • 关联分析:关联分析主要用于发现不同事件之间的关联性,即一个事件发生的同时,另一个事件也经常发生。关联分析的重点在于快速发现那些有实用价值的关联发生的事件。其主要依据是事件发生的概率和条件概率应该符合一定的统计意义。
  • 序列分析:主要用于发现一定时间间隔内接连发生的事件。这些事件构成一个序列,发现的序列应该具有普遍意义,其依据除了统计上的概率之外,还要加上时间的约束。
  • 分类分析:通过分析具有类别的样本的特点,得到决定样本属于各种类别的规则或方法。
  • 预测:与分类类似,但预测是根据样本的已知特征估算某个连续类型的变量的取值的过程,而分类则只是用于判别样本所属的离散类别而已。
  • 聚类分析:据物以类聚的原理,将本身没有类别的样本聚集成不同的组,并且对每一个这样的组进行描述的过程。其主要依据是聚到同一个组中的样本应该彼此相似,而属于不同组的样本应该足够不相似。
  • 时间序列分析:分析的是随时间而变化的事件序列,目的是预测未来发展趋势,或者寻找相似发展模式或者是发现周期性发展规律。

4.9.3商业智能BI

BI系统主要包括数据预处理、建立数据仓库、数据分析和数据展现四个阶段

  • 数据预处理:是整合企业原始数据的第一步,包括数据的抽取、转换、加载三个过程(ETL过程)
  • 建立数据仓库:是处理海量输的基础
  • 数据分析:是体现系统智能的关键,一般采用联机分析处理(OLAP)和数据挖掘两大技术
    • 联机分析处理(OLAP):不仅进行数据汇总/聚集,同时还提供切片、切块、下钻、上卷和旋转等数据分析功能,用户可以方便地对海量数据进行多维分析
    • 数据挖掘:目标是挖掘数据背后隐藏的知识,通过关联分析、聚类分析和分类分析等方法建立分析模型,预测企业未来发展趋势和将要面了的问题
  • 数据展现:在海量数据和分析手段增多的情况下,主要负责保障系统分析结果的可视化

4.9.4联邦数据库

1、定义
  • 联邦数据库系统(FDBS)是一个彼此协作却有相互独立的成员数据库(CDBS)的集合,它将成员数据库系统按不同程度进行集成。

  • 联邦数据库管理系统(FDBMS):对联邦数据库系统整体提供控制和协同操作的软件。

2、特征
  • 分布性
  • 异构性
  • 自治性
  • 透明性
3、分类
  • 紧耦合
  • 松耦合

4.10NoSQL技术

  • NoSQL(Not only SQL)数据库:非关系型数据库
  • 与传统数据库对比
关系数据库模式NoSQL模式
并发支持支持并发、效率低并发性能高
存储与查询关系表方式存储、SQL查询海量数据存储、查询效率高
扩展方式向上扩展向外扩展
索引方式B树、哈希等键值索引
应用领域面向通用领域特定应用领域
  • 缺点
    • 成熟度不够,大量关键特性有待实现
    • 开源数据库产品的支持力度有限
    • 数据挖掘与商务智能支持不足
    • 数据库专家较少
  • 主流产品:Redis、MongoDB、Flare等

4.11大数据

  • 定义:大数据(big data),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
  • 特点
    • Volume:数据体量大
    • Velocity:处理速度快
    • Variety:多样性,数据类型繁多
    • Value:价值密度低
  • 与传统数据比较
传统数据大数据
数据量GB或TB级PB级或以上
结构化程度结构化或半结构化数据所有类型的数据
数据化分析需求现有数据的分析与检测深度分析(关联分析、回归分析)
硬件平台高端服务器集群平台
  • 关键技术:大数据采集、大数据预处理、大数据存储及管理、大数据分析及挖掘、大数据展现和应用(大数据检索、大数据可视化、大数据应用、大数据安全等)。
  • 大数据处理系统应该具有的重要特征
    • 高度可扩展性
    • 高性能
    • 高度容错
    • 支持异构环境
    • 较短的分析延迟
    • 易用且开放的接口
    • 较低成本
传统数据大数据
数据量GB或TB级PB级或以上
结构化程度结构化或半结构化数据所有类型的数据
数据化分析需求现有数据的分析与检测深度分析(关联分析、回归分析)
硬件平台高端服务器集群平台
  • 关键技术:大数据采集、大数据预处理、大数据存储及管理、大数据分析及挖掘、大数据展现和应用(大数据检索、大数据可视化、大数据应用、大数据安全等)。
  • 大数据处理系统应该具有的重要特征
    • 高度可扩展性
    • 高性能
    • 高度容错
    • 支持异构环境
    • 较短的分析延迟
    • 易用且开放的接口
    • 较低成本
    • 向下兼容性
  • 1
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值