Hadoop学习_day01_基础概念

最新推荐文章于 2023-12-31 14:06:52 发布

原创最新推荐文章于 2023-12-31 14:06:52 发布 · 2.7k 阅读

7 ·

CC 4.0 BY-SA版权

文章标签：

#big data #hadoop #数据分析

大数据专栏收录该内容

1 篇文章

订阅专栏

本文深入探讨了Hadoop作为大数据处理的核心框架，包括其HDFS分布式文件系统、MapReduce计算框架和YARN资源管理。Hadoop解决了海量数据的存储和计算问题，广泛应用于电商、传媒、金融等多个领域。大数据的特点被总结为5V：Volume（大量）、Variety（多样）、Value（低价值密度）、Velocity（高速）和Veracity（准确）。Hadoop的部署模式包括单机、伪分布式、集群和高可用等，其商业发行版如Cloudera和Hortonworks提供了稳定兼容的解决方案。

Hadoop

Hadoop是Apache软件基金会旗下的一款Java开源软件框架，提供了大数据存储、计算的一套解决方案。

Hadoop HDFS 分布式文件系统：解决海量数据存储
Hadoop MAPREDUCE 分布式运算编程框架：解决海量数据计算
Hadoop YARN 作业调度和集群资源管理框架：解决集群资源任务调度

海量数据如何存储？

分布式存储
海量数据如何计算？

分布式计算

1. 大数据导论

1.1 大数据概念

数据：

是事实或观察的结果
是对客观事物的逻辑归纳
适用于表示客观事物的未经加工的原始素材

数据的产生：

对客观事物的计量和记录产生数据

数据存储单位：

在这里插入图片描述

大数据：

是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据结合
是需要新处理模式才能具有更强的决策力、洞察发现里和流程优化能力的海量、高增长率

大数据时代：

《大数据时代》纪录片

挑战：

存储
计算

1.2 大数据特点5V

Volume 数据体量大
- 采集数据量大
- 存储数据量大
- 计算数据量大
- TB、PB级别起步
Variety 种类、来源多样化
- 种类：结构化（便于解析的数据）、半结构化（json）、非结构化
- 来源：日志文本、图片…
Value 低价值密度
- 信息海量但是价值密度低
- 深度复杂的挖掘分析需要机器学习参与
Velocity 速度快
- 数据增长速度快
- 获取数据速度快
- 数据处理速度快
Veracity 数据的质量
- 数据的准确性
- 数据的可信赖度

1.3 大数据应用场景

电商领域

精准广告位、个性化推荐、大数据杀熟
传媒领域

精准营销、猜你喜欢、交互推荐
金融领域

信用评估、风险管控、客户细分、精细化营销
交通领域

拥堵预测、智能红绿灯、导航最优规划
电信领域
医疗领域

智慧医疗、疾病预防、病原追踪
……

1.4 大数据业务分析基本步骤

明确分析目的和思路
- 目的是整个分析流程的起点
- 思路是使分析框架体系化
- 数据分析方法论：营销管理相关理论
  
  用户行为理论、PEST分析法、5W2H分析法、逻辑树分析法、4P营销理论
数据收集
- 数据从无到有的过程
- 数据传输搬运的过程
  - 业务数据 RDBMS
  - 日志数据
  - 爬虫数据
  - 互联网公开数据
数据处理

数据清洗、数据转换、数据提取、数据计算
数据分析
- 用适当的分析方法及工具，对处理过的数据进行分析
- 数据挖掘本质是一种高级的数据分析方法
数据展现

数据可视化
报告撰写