大数据
- 什么是大数据?大数据是一种规模大到,从管理、获取、分析等,从传统的数据库软件已经无法实现的数据结合。
- 大数据的基本特征
- 1、Volume 数据量大,从TB级别,跃升到PB级别。
- 2、Velocity 实时性强,实时监测海量数据
- 3、Varirty 种类多样,网络日志、视频、图片、地理位置信息,等等。
- 4、Value 价值密度低,以视频为例,连续不间断监控过程中,可能有用的数据仅仅有一两秒。
- 大数据与云计算的关系就像一枚硬币的正反面一样密不可分。大数据必然无法用单台的计算机进行处理,必须采用分布式计算架构。它的特色在于对海量数据的挖掘,但它必须依托云计算的分布式处理、分布式数据库、云存储和/或虚拟化技术。
- 大数据分析是研究大量的数据的过程中寻找模式,相关性和其他有用的信息,可以帮助企业更好地适应变化,并做出更明智的决策。
- 有很多工具可以处理大数据,大数据处理分析的六大最好工具:Hadoop、HPCC、Storm、Apache Drill、RapidMiner和Pentaho BI。Hadoop旨在通过一个高度可扩展的分布式批量处理系统,对大型数据集进行扫描,以产生其结果。Hadoop项目包括三部分,分别是Hadoop Distributed File System(HDFS)、HadoopMapReduce编程模型,以及Hadoop Common。Hadoop平台对于操作非常大型的数据集而言可以说是一个强大的工具。为了抽象Hadoop编程模型的一些复杂性,已经出现了多个在Hadoop之上运行的应用开发语言。Pig、Hive和Jaql是其中的代表。而除了Java外,您还能够以其他语言编写map和re