【数据库系统】数据库系统概论====第十四章 大数据管理

第十四章 大数据管理


14.1大数据概述

14.1.1什么是大数据

  1. 大数据定义
    一般意义上,大数据指无法在可容忍的时间内用现有IT技术和软硬件工具对其进行感知、获取、管理、处理和服务的数据集合。
    大数据通常认为是PB或EB或更高级的数据,包括结构化的、半结构化的和非结构化的数据。
  2. 大数据分类
    按大数据的应用类型分为海量交易数据(企业OLTP应用)、海量交互数据(社交网、传感器、全球定位系统、Web信息)和海量处理数据(企业OLAP应用)。

14.1.2大数据的特征

  1. 大数据的特征(4V)
    巨量(Volume)、多样(Variety)、快变(Velocity)、价值(Value)。
    巨量:大数据的首要特征是数量巨大,而且在持续、急剧地膨胀。
    主要来源有:科学研究、互联网应用和电子商务领域、传感器数据、网状点击数流量、移动设备数据、无线射频识别数据等。
    多样:数据的多样性通常是指异构的数据类型、不同的数据表示和语义解释。
    越来越多的应用所产生的数据类型不再是纯粹的关系数据,更多的是非结构化、半结构化的数据,如文本、图形、图像、音频、视频、网页、推特和博客等。
    快变:大数据的快变性也称为实时性,一方面指数据到达的速度很快,另一方面指能够进行处理的时间很短,或者要求响应速度很快,即实时响应。
    价值:大数据的价值是潜在的、巨大的。大数据不仅具有经济价值和产业价值,还具有科学价值。这是大数据最重要的特点,也是大数据的魅力所在。

14.2大数据的应用

14.2.1感知现在 预测未来----互联网文本大数据管理与挖掘

  1. 互联网媒体文本大数据应用:时事探针
    时事探针系统可以实时监控、收集互联网媒体数据,并对数据进行深入的挖掘和分析。“马航事件”等信息过载问题和“高考”等热点话题。
  2. 互联网文本大数据管理的挑战
    对于文本大数据处理,目前广泛使用的互联网搜索引擎只是对文本数据的简单索引和查找,不能满足用户对所关注的话题进行实时监测、深入分析以及决策支持等需求。
  3. 互联网文本大数据管理系统
    时事探针系统是一个面向互联网文本大数据的通用的管理和分析平台。整个系统分为离线处理和在线处理两个部分。其中离线部分是设计的重点,主要功能有:
    ①多源异构网络大数据的感知和获取。
    ②文档理解及结构数据抽取和集成。
    ③数据存储和索引。
    ④离线主题文本立方体建立及更新。
    互联网文本大数据管理的特点:
    ①互联网文本大数据蕴含着丰富的社会信息,可以看作是对真实社会的网络映射。
    ②实时、深入分析互联网文本大数据,帮助人们在海量数据中获取有价值的信息,发现蕴含的规律,可以更好地感知现在、预测未来。
    ③互联网文本大数据管理对大数据系统和技术的挑战是全面、跨学科领域的,需要创新,也需要继承传统数据管理技术和数据仓库分析技术的精华。

14.2.2数据服务 实时推荐----基于大数据分析的用户建模

  1. 面向用户建模的大数据系统架构
    用户建模的目标是为了准确地把握用户的行为特征、兴趣爱好等,进而较为精准地向用户提供个性化地信息服务或信息推荐。
    面向用户建模的大数据系统架构如下:
    在这里插入图片描述
  2. 数据分析:用户建模的基础工具
    一大类用户建模方法采用的是批处理方式的离线分析方法,对结构化或半结构化的是日志数据进行SQL分析或者使用数据挖掘和机器学习的深度分析方法。
    另一大类用户建模方法则采用实时的在线分析方法,数据即来即分析,更强调数据的实时分析处理能力。
  3. 数据服务:用户建模的价值体现
    这一大数据应用特点:
    ①模型建立来自对大数据的分析结果。
    ②数据处理既有对历史数据的离线分析和挖掘,又有对实时流数据的在线采集和分析。
    ③用户模型本身也是大数据,维度高,信息稀疏,用户模型的存储、管理是数据服务的重要任务,要满足大规模应用需求的高并发数据更新与读取。

14.3大数据管理系统

14.3.1NoSQL数据管理系统

NoSQL是以互联网大数据应用为背景发展起来的分布式数据管理系统。NoSQL有两种解释:一种是Non-Relational,即非关系数据库;另一种是Not Only SQL,即数据管理技术不仅仅是SQL。目前第二种解释更为流行。
NoSQL系统支持的数据模型通常分为Key-Value模型、BigTable模型、文档模型和图模型4种模型。

14.3.2 NewSQL数据库系统

NewSQL系统是融合了NoSQL系统和传统数据库事务管理功能的新型数据库系统。
在这里插入图片描述

14.3.3 MapReduce技术

MapReduce技术是Google公司于2004年提出的大规模并行计算解决方案,主要应用于大规模廉价集群上的大数据并行处理。
MapReduce是一种并行编程模型。它把计算过程分解为两个阶段,即Map阶段和Reduce阶段。

14.3.4大数据管理系统的新格局

  1. 面向操作型应用的关系数据库技术
  2. 面向分析型应用的关系数据库技术
  3. 面向操作型应用的NoSQL技术
  4. 面向分析型应用的MapReduce技术

14.4小结

  1. 大数据的概念。
  2. 大数据特点及大数据管理和大数据系统的技术需求和挑战。
  3. NoSQL系统、NewSQL系统和MapReduce技术等。
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
数据库系统概论第五版》是由美国加州大学河滨分校Elmasri Ramez和Navathe Shamkant著作的一部经典数据库教材。第十章主要讲述了数据库安全和授权管理的相关内容。 在数据库系统中,安全性是非常重要的一个方面。因为数据库中包含了大量的敏感信息,如个人隐私数据、商业机密等,因此必须要有一套严格的安全机制来保护这些信息不被未经授权的人员访问、修改或删除。第十章首先介绍了基本的安全概念,如认证、授权、审计等,并详细讨论了数据库中的安全问题和常见的安全威胁。 在保护数据库安全方面,授权管理是非常重要的一环。合理地设置和管理用户的权限可以有效地保护数据库的机密性和完整性。在第十章中,作者详细介绍了授权管理的基本原则和方法,并对常见的授权策略进行了解释和比较。同时,还介绍了数据库中的访问控制和角色管理等相关内容。 此外,第十章还讨论了数据库中的审计功能。审计是指记录和追踪对数据库的各种操作,可以帮助管理员查找和解决数据库中的安全问题。本章还介绍了审计的基本原理和方法,以及如何在实际数据库系统中实施审计功能。 综上所述,《数据库系统概论第五版》第十章主要涵盖了数据库安全和授权管理的相关内容,对于学习和理解数据库系统的安全性和管理性能够起到很好的指导作用。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值