Hadoop
前言-大数据概念
Hadoop:能做的事情是对历史的数据进行分析和处理。
数据:Data,信息
结构化数据:Database、spreadsheet、File in record format
非结构化数据:
-> 半结构化数据:xml docs、logs、click stream、Equipment
-> 完全非结构化数据:web pages、Email、Multimedia、doc、instant Messages…
大数据4V:volume(规模大)、velocity(速度快)、variety(类型多)、value(价值密度低)
实时数据源:
离线数据源:对历史数据 进行分析 --- hbase、hive…
数据密集型(DIC):在集群中所计算的数据的量比较大,但是计算过程并不复杂。
计算密集型(CIC):数据量并不大,但是计算过程是比较复杂的。
机器学习:当数据被处理完,用来获取所处理的信息。从数据集中获取信息。
云计算(CloudComputing):通过互联网来提供动态易扩展且经常是虚拟化的资源。