大数据的相关知识

最新推荐文章于 2022-09-23 23:06:54 发布

qq_34575570

最新推荐文章于 2022-09-23 23:06:54 发布

阅读量245

点赞数

1.结构化数据与非结构化数据

在实际应用中，我们会遇到各式各样的数据库如nosql非关系数据库（memcached，redis，mangodb），RDBMS关系数据库（oracle，mysql等），还有一些其它的数据库如hbase，在这些数据库中，又会出现结构化数据，非结构化数据，半结构化数据，下面列出各种数据类型：

结构化数据：

能够用数据或统一的结构加以表示，我们称之为结构化数据，如数字、符号。传统的关系数据模型、行数据，存储于数据库，可用二维表结构表示。

半结构化数据：

所谓半结构化数据，就是介于完全结构化数据（如关系型数据库、面向对象数据库中的数据）和完全无结构的数据（如声音、图像文件等）之间的数据，XML、HTML文档就属于半结构化数据。它一般是自描述的，数据的结构和内容混在一起，没有明显的区分。

非结构化数据：

非结构化数据库是指其字段长度可变，并且每个字段的记录又可以由可重复或不可重复的子字段构成的数据库，用它不仅可以处理结构化数据（如数字、符号等信息）而且更适合处理非结构化数据（全文文本、图象、声音、影视、超媒体等信息）。

非结构化数据,包括所有格式的办公文档、文本、图片、XML、HTML、各类报表、图像和音频/视频信息等等

2.大数据是什么有什么特点？

业界通常用4个V(即Volume、Variety、Value、Velocity)来概括大数据的特征。具体来说，大数据具有4个基本特征：
1、是数据体量巨大
　　数据体量(volumes)大，指代大型数据集，一般在10TB规模左右，但在实际应用中，很多企业用户把多个数据集放在一起，已经形成了PB级的数据量;百度资料表明，其新首页导航每天需要提供的数据超过1.5PB(1PB=1024TB)，这些数据如果打印出来将超过5千亿张A4纸。有资料证实，到目前为止，人类生产的所有印刷材料的数据量仅为200PB。
2、是数据类别大和类型多样
　　数据类别(variety)大，数据来自多种数据源，数据种类和格式日渐丰富，已冲破了以前所限定的结构化
数据范畴，囊括了半结构化和非结构化数据。现在的数据类型不仅是文本形式，更多的是图片、视频、音频、地理位置信息等多类型的数据，个性化数据占绝对多数。
3、是处理速度快
　　在数据量非常庞大的情况下，也能够做到数据的实时处理。数据处理遵循“1秒定律”，可从各种类型的数据中快速获得高价值的信息。
4、是价值真实性高和密度低
　　数据真实性(Veracity)高，随着社交数据、企业内容、交易与应用数据等新数据源的兴趣，传统数据源的局限被打破，企业愈发需要有效的信息之力以确保其真实性及安全性。以视频为例，一小时的视频，在不间断的监控过程中，可能有用的数据仅仅只有一两秒。

3.数据仓库

数据库是面向事务的设计，数据仓库是面向主题设计的。数据库一般存储在线交易数据，数据仓库存储的一般是历史数据。数据库设计是尽量避免冗余，一般采用符合范式的规则来设计，数据仓库在设计是有意引入冗余，采用反范式的方式来设计。数据库是为捕获数据而设计，数据仓库是为分析数据而设计，它的两个基本的元素是维表和事实表。（维是看问题的角度，比如时间，部门，维表放的就是这些东西的定义，事实表里放着要查询的数据，同时有维的ID）

4.CAP理论

一致性、可用性和分区容错性三者无法在分布式系统中被同时满足，并且最多只能满足其中两个！

这个猜想首次把一致性、可用性和分区容错三个因素提炼出来作为系统设计的重要特征，断言用此三者可以划分所有的分布式系统，并指明这三个特征之间的不可能性关系。Brewer猜想比单纯的“低延迟和顺序一致性不能被同时满足”的结论更具体，对实际系统的构建也更具有可操作性！Brewer教授当时想象的分布式场景是webservice，一组websevrice后台运行着众多的server，对service的读写会反应到后台的server集群，并对CAP进行了定义：