CDH-CM大数据管理平台详解 附CDH离线安装包

本文详细介绍了CDH大数据管理平台,包括大数据的特点、关键技术和相关案例,以及Hadoop的起源、特点和生态系统。重点讲述了Cloudera Manager(CM)在大数据集群管理中的作用,如状态管理、配置管理、进程管理、软件包管理等,并详细描述了CM的安装和集群部署过程。此外,文章还涵盖了数据采集模块如HDFS、YARN、Zookeeper和Kafka的安装,以及Spark的安装与配置。最后,讨论了数据迁移和实时数仓的准备工作,包括代码编写和Impala与Hue的查询实践。
摘要由CSDN通过智能技术生成

一、大数据概述

1、大数据时代的数据特点 

一般认为,大数据主要具有 四方面的典型特征——规模性(Volume)、多样性(Variety)、高速性(Velocity)和价值性(Value), 即所谓的"4V“。

  • volume(大量):目前处理的数据量基本为PB、EB级别
  • velocity(高速):在极短的一段时间内能产出大量数据(秒杀活动等)
  • variety(多样):数据种类比较多,如日志文件、音频、视频、地理位置信息等
  • value(低价值密度):数据本身的价值比较低,通过对数据分析出有价值的东西

(1)规模性:即大数据具有相当的规模,其数据量非常巨大。

淘宝网近4亿的会员每天产生的商品交易数据约20TB, Facebook (脸书)约10亿的用户每天产生的日志数据超过300TB。数据 的数量级别可划分为B、KB、MB、GB、TB、PB、EB、ZB等,而数据的数量级别为PB级别的 才能称得上是大数据。根据IDC公司的最新研究,未来10年,全球的数据总量将会增长50倍, 以此推算,数据产生的速度越来越快,而且数据总量将呈现指数型的爆炸式增长。

(2&#

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

wespten

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值