大数据实践理论1---大数据的介绍

最新推荐文章于 2024-07-12 16:01:56 发布

世龙博客

最新推荐文章于 2024-07-12 16:01:56 发布

阅读量196

点赞数

文章标签： hadoop spark hdfs flink

本文链接：https://blog.csdn.net/lushilonglong/article/details/115861729

版权

大数据实践理论

1.0传统关系型数据库

1.0.1什么是关系型数据库

关系型数据库，是指采用了关系模型来组织数据的数据库，其以行和列的形式存储数据，以便于用户理解，关系型数据库这一系列的行和列被称为表，一组表组成了数据库。用户通过查询来检索数据库中的数据，而查询是一个用于限定数据库中某些区域的执行代码。关系模型可以简单理解为二维表格模型，而一个关系型数据库就是由二维表及其之间的关系组成的一个数据组织

1.0.2关系型数据库的几个主流代表

Oracle, SQLserver, MySQL, DB2 ,SyBase等

1.0.3关系型数据的优缺点

优：1. 容易理解，使用实体来表示显示世界中的事物，使用属性表示实体的特征，使用二维表来描述逻辑世界的概念，相对于网状，层次等其他模型更容易理解。
2.使用方便，sql使得关系型数据库得操作十分方便。
3.易于维护，完整性，支持大大降低了数据冗余和数据不一致得概率。
缺：1. 难以满足高并发读写需求。网站用户多得话，多并发非常多，对于传统关系型数据库，磁盘I/O是个非常大得瓶颈。
2. 难以满足海量书库得高效率读写需求，网站每天产生得数据是非常巨大的，对于关系型数据库来说，包含海量数据的关联查询，效率非常低。
3.扩展性差，大型的应用项目中，数据库是最难进行横向扩展的，当一个应用系统的，用户量和访问量与日俱增的时候，数据库很难通过简单增加硬件和服务节点来扩展性能和提高负载能力。对于很多需要提供24小时的不间断服务的网站来说，对数据库系统进行升级的扩展是非常痛苦的事情，往往需要停机维护和系统迁移。

2.0大数据库

2.0.1什么是大数据库

传统处理海量数据的思路是采用高性能计算机，如果一台不够，就横向多加几台，部署分布式数据库，这种的方式扩展性差，成本高。大数据系统放弃磁盘列阵，而是用本地硬盘作为存储，通过增加文本副本的方式解决可靠性问题，存储成本大大降低了。分布式计算框架的支持，将计算任务分担到普通服务器上，从软件层面来解决很多硬件问题，比如单块硬盘故障不影响整个集群的使用，使用普通服务器搭建集群等等。

2.0.2大数据的特征

（1）数据体量巨大，一般指TB以及PB级数据。
（2）数据类型多样，比如图片，视频，音频，地理位置信息等。
（3）处理速度快，价值密度低。
（4）价值密度低。

2.0.3常用工具框架

    给他Hadoop是大数据库系统的典型代表，Hadoop底层的分布式文件系统效率，还可以存储各种格式的数据，同时其还支持多种计算框架，既有离线计算，又有在线实时计算，还有内存计算，Hadoop生态圈中的Hive应用的主要场景就是离线分析，HBase是实时计算的代表，Spark则是内存大数据计算框架。

（1）key-value存储数据库是数据分为key和value，用key定位value，简化了数据模型，实现了数据的快速存储和读取，一般不关心数据的类型，它可以是字符串或者二进制数据，因此key-value存储类型可以存储丰富的数据类型。
（2）文档数据库类型与key-value类型相似，但value是结构化的，一般使用类json的格式，可以将文档数据库看作key-value的升级版，他们都是HashTable的数据结构。
（3）图数据库是以数据结构中的图的概念进行建模，数据储存在“图”中，“图”中的节点表示实体，边表示实体的关系。节点和边都可以有自己的属性。不同实体通过各种不同的关系关联起来，形成复杂的对象图。图数据库提供了在对象图上进行查找和遍历的功能。

2.0.4大数据库的应用

随着信息化水平的提高和移动应用的普及，很多行业都积累了海量的数据。海量数据的产生与手机为大数据库的应用提供了基础。从技术层面讲，一下三种应用场景都可以看到大数据库的身影：（1）离线分析；（2）实时事务处理；（3）高并发，低延迟，实时事务应用。
场景一：离线分析。
2016年，作业帮用户量已经达1.3亿，面对海量中小学生的点击浏览，作业帮每天产生的应用数据和行为数据在TB级别，如何做到海量数据稳定存储，做好数据统计分析，方便快捷的查询以及降低高昂的运维成本，成了作业帮最为头疼的问题。
方案（1）线上业务系统用云主机解决负载均衡及海量存储问题。
（2）将线上业务系统与离线数据平台分离。线上业务系统实时为用户提供服务，离线数据平台提供报表分析等功能。
（3）日志服务BLS收集运行数据，存储到BOS中，然后使用百度MapReduce对数据筛选，清理，存储，最后接入报表系统。百度MapReduce是Hadoop/Spark集群。
场景二：实时事务处理
每天有超过8亿用户使用微信，qq等海量数据产品。腾讯每天200多亿的管高流量，这对算法模型训练数据的准确性，实时性和完整性都提出了很高的要求。腾讯利用HBase+Storm构建了广告日志实时处理平台，解决了实时数据回流和统计的问题。
场景三：高并发，低延迟，实时事务应用。
12306当初在应对高并发访问处理方面，层备受网民诟病。该网站业务的复杂度远超过传统电商，非一般的解决方案可以解决。加入不能在短时间内动态调整网络带宽或增加计算资源，就会造成网络堵塞，甚至整个系统不稳定。
2015年起，12306连续三年顺利通过春运大考验，核心思想是，“利用云计算资源”“按需及时扩充”“快速调整”技术上使用pivotal的Gemfire架构。Gemfire是一种key-value cache的Nosql解决方案，简单的讲是一种内存数据库。相比于磁盘，计算机内存的数据读写速度要高出几个数量级，将数据保存在内存中，相比直接从磁盘上访问，极大的提高了I/O，可以提升系统性能，Gemfire使用X86PC服务器，其性价比远远高于linux小型机。Gemfire可以将数十台或者数百台廉价服务器组建成一个集群，组成最高可达数十TB的内存资源池，将全部数据加载到内存中，在内存中进行计算。计算过程本身不需要读写磁盘，只是定期将数据以同步或异步的方式写到磁盘中。GemFire在分布式集群中保存了多份数据，任何一台机器故障，其他服务器都有备份数据，不用担心数据丢失。GemFire支持把内群数据持久化到各种传统的关系数据库，Hadoop库和其他文件系统中。GemFire以其卓越的性能，成为高并发，低延迟，实时性要求高的大数据应用场景的有力竞争者。

世龙博客

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
3
评论
大数据实践理论1---大数据的介绍

大数据实践理论1.0传统关系型数据库1.0.1什么是关系型数据库关系型数据库，是指采用了关系模型来组织数据的数据库，其以行和列的形式存储数据，以便于用户理解，关系型数据库这一系列的行和列被称为表，一组表组成了数据库。用户通过查询来检索数据库中的数据，而查询是一个用于限定数据库中某些区域的执行代码。关系模型可以简单理解为二维表格模型，而一个关系型数据库就是由二维表及其之间的关系组成的一个数据组织1.0.2关系型数据库的几个主流代表Oracle, SQLserver, MySQL,
复制链接

扫一扫