大数据基本概念
1.大数据概述
相信大家经常会在各种场合听到“大数据"这个词,被誉为数据仓库之父的BillInmon早在20世纪90年代就将大数据挂在嘴边了。那么到底什么是大数据呢?这是我们在本章要了解的。
我们现在生活的时代是一一个数据时代,近年来随着互联网的高速发展,每分每秒都在产生数据,那么产生的这些数据如何进行存储和相应的分析处理呢?各大公司纷纷研发和采用一批新技术来应对8益庞大的数据处理需求,主要包括分布式文件系统、分布式计算框架等,这些都是我们需要学习和掌握的。
《互联网周刊》对大数据的定义为:“大数据 ”的概念远不止大量的数据(TB)和处理大量数据的技术,或者所谓的“4个V"之类的简单概念,而是涵盖了人们在大规模数据的基础上可以做的事情,这些事情在小规模数据的基础上是无法实现的。换句话说,大数据让我们以一种前所未 有的方式,通过对海量数据进行分析,来获得有巨大价值的产品和服务,或深刻的洞见,最终形成变革之力。
2.大数据特征
(1)数据量大(Volume)
随着网络技术的发展和普及。每时每刻都会产生大量的数据。在我们的日常生活中,比如说在电商网站购物、在直播平台看直播、在线阅读新闻等,都会产生很多的日志,汇在一起每分每秒产生的数据量将是非常巨大的。
(2)类型繁多(Variety)
大数据中最常见的类型是日志,除了日志之外常见的还有音频、视频、图片等。由于不同类型的数据没有明显的模式,呈现出多样性的特点,这对于数据的处理要求也会更高。
(3)价值密度低(Value)
现阶段每时每刻产生的数据量已经很大了,如何从大量的日志中提取出我们需要的、对我们有价值的信息才是最重要的。数据量越来越大,里面必然会存在着大量与我们所需不相干的信息,如何更迅速地完成数据的价值