什么是大数据
随着计算机技术的发展,硬件设备变得越来越亲民了,磁盘的容量也越来越多,我们可以将更多的数据存储到其中。于此同时,数据产生的速度越来越快,数据量也越来越大。但是硬件发展的速度还是不够快,一台计算机的能力极为有限,内存的容量是有限的,数据量的大小大大超过了内存的大小,无法一次处理全部的数据,必须合理利用有限的资源。我们没有办法打造一台超级计算机,造假太过于高了。只有大型企业以及国家才有这个实力打造超级计算机。那么要怎么做才能解决这个问题了,这个时候大数据就应运而生。
大数据的产生是由大量的数据推动而生的,那这些数据又从哪里来呢。随着互联网,移动互联网,物联网,云计算的快速兴起,当前数据产生的速度比以往人类社会任何时候都快。
大数据的特点
价值密度低:在数据量急剧增长的同时,背后隐藏的有用信息却没有得到有用的增长,反而获取用户的信息变得困难起来。
处理速度快:数据的产生变得越来越快,这就要求,大数据处理数据要快,大数据一般采用分布式集群来处理。与单台计算机相比,分布式集群在性能上随着机器数量稳步增长,性能上有着优势。
数据量大:数据量大是大数据的基本特征,随着互联网的技术发展,用户急剧增加,普通用户接触互联网的频率大大增多。
数据种类多:除了普通得文本之外,图片,视频,各种不一样得数据格式逐渐加入大数据得行列,智能手机产生得GPS位置信息,网页等等,数据格式与传统得MySQL数据库相比,数据格式大大增加。
大数据存储技术
数据得存储介质主要有三大类,硬盘,光盘,磁带等等,这三种介质得基础上分别构成了磁带机,光盘库,磁盘阵列等三种主要存储设备。
磁带机因为价格便宜的原因应用广泛,光盘库适用于保存多媒体数据,磁盘阵列因为较高的存取速度和可靠性,成为主流的方式。
大数据时代的第一个问题就是容量问题,大容量通常是指PB级别的数据规模,扩展一般通过增加磁盘柜和模块增加存储容量,这样就可以不用停机。
传统的关系型数据库在高并发的情况下有着性能的问题,简单点来说就是不够快,大数据是要在合理的时间内对数据进行处理以及存储,对速度自然是有要求的。关系型数据库还存在扩展性能差,非结构化数据处理能力不足等等。
nosql数据库的意思是不仅仅是“no noly sql",不仅仅是sql,不是no sql,nosql数据库。nosql是指非关系型,分布式和不提供ACID的数据库,强调的是键值存储和文档数据库的优点。