这两天参加华为云举办的各种培训,顺便做了点笔记。这篇文章就说说大数据方面的一些工具。
一、大数据概念
1.1 概念
当数据维度达到现有工具或软件在处理时所需要的时间超过了人类所能容忍的时间时,这样的数据称为大数据。
1.2 特征(4V特征)
- 数据量大Volume:数据包括采集、存储和计算的量都非常大。大数据的起始计量单位至少是PB
- 种类和来源多样化Variety:结构化(身份证)、半结构化(网页)和非结构化数据(语音,图像,视频)。
- 数据量增长速度快Velocity:用户基数庞大,设备数量众多,实时产生,数据量指数增长。
- 价值密度低Value:沙里淘金,要从海量数据中挖掘价值
1.3 大数据框架
1.4 Hadoop(分布式处理系统)
基于Google三大论文的开发的分布式式处理系统
- HDFS:分布式文件系统,主要用来进行文件的分布式存储,根据Google File system开发。
- MapReduce:分布式计算框架,主要用来进行计算。根据MapReduce开发。
- HBase:分布式,面向列的数据库,根据BigTable开发。
二、大数据采集工具
2.1 采集方法概述
- 实时采集:数据实时产生,实时采集,常用的工具是Flume,Logstash。
- 离线数据采集:数据产生后,定时采集。常用工具:Loader。
2.2 Flume
2.2.1 特点
- 实时采集工具
- 常用于系统日志的采集。
- 具备数据预处理能力
- 支持多种数据源