大数据工具总结

本文介绍了大数据的概念,特征,以及一系列关键工具,包括Hadoop、Flume、Logstash、HDFS、HBase、Redis、Kafka、MapReduce、Spark、Storm、Flink、Hive、Impala等,涵盖了数据采集、存储、分析与挖掘等方面。此外,还提到了Zookeeper、Yarn作为协助工具的作用,以及华为商业大数据平台FusionInsight的特点。
摘要由CSDN通过智能技术生成

这两天参加华为云举办的各种培训,顺便做了点笔记。这篇文章就说说大数据方面的一些工具。

一、大数据概念

1.1 概念

当数据维度达到现有工具或软件在处理时所需要的时间超过了人类所能容忍的时间时,这样的数据称为大数据。

1.2 特征(4V特征)

  1. 数据量大Volume:数据包括采集、存储和计算的量都非常大。大数据的起始计量单位至少是PB
  2. 种类和来源多样化Variety:结构化(身份证)、半结构化(网页)和非结构化数据(语音,图像,视频)。
  3. 数据量增长速度快Velocity:用户基数庞大,设备数量众多,实时产生,数据量指数增长。
  4. 价值密度低Value:沙里淘金,要从海量数据中挖掘价值

1.3 大数据框架

1.4 Hadoop(分布式处理系统)

基于Google三大论文的开发的分布式式处理系统

  1. HDFS:分布式文件系统,主要用来进行文件的分布式存储,根据Google File system开发。
  2. MapReduce:分布式计算框架,主要用来进行计算。根据MapReduce开发。
  3. HBase:分布式,面向列的数据库,根据BigTable开发。

二、大数据采集工具

2.1 采集方法概述

  1. 实时采集:数据实时产生,实时采集,常用的工具是Flume,Logstash。
  2. 离线数据采集:数据产生后,定时采集。常用工具:Loader。

2.2 Flume

2.2.1 特点

  1. 实时采集工具
  2. 常用于系统日志的采集。
  3. 具备数据预处理能力
  4. 支持多种数据源

2.2.2 组成

  • 4
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值