大数据入门简介(一)
首先我们先想想为什么会大数据,或者说它能干什么?
与常规数据比较,大数据体现在什么地方?大数据大数据,关键是什么,大!!!就是这么浅显,大,什么大,数据大呗。下面我们就围绕这个大好好谈谈这个大数据。
一、概念(三无、俩海)
1、大数据是指无法通过常规软件等工具对数据内容进行抓取、管狸和处理的数据集合(三无)。
2、大数据主要解决(俩海):海量的数据存储和海量的数据计算问题。
二、特性(四V俩固)
四大特性(4V):
Volume:大数据量。大多是过去俩年产生的数据
Velocity:速度快。数据增长速度快,时效性比较高
Variety:多样化。数据种类和数据来源多样化。结构化数据-半结构化数据-非结构化数据。
Value:价值密度低。需要深入挖掘数据信息。
固有特性:
时效性
不可变性
三、Hadoop
1、介绍
Hadoop是一个开源的分布式系统架构。
我们可以看看他的发展及版本。
(1)、Hadoop起源于搜索引擎Apache Nutch
创始人:Doug Cutting
2004年:最初版本
20