Hadoop 3 构建高效的大数据分析方案
实时分析 流式处理
Python - Hive
Python - HDFS ✔
书籍 https://www.packtpub.com/free-ebook/big-data-analytics-with-hadoop-3/9781788628846
资料 https://www.packtpub.com/sites/default/files/downloads/BigDataAnalyticswithHadoop3_ColorImages.pdf
第1章 Hadoop简介
均衡器
纠删码
平衡器
50070 9870
3.x 新特性,2.x可靠性和性能。
第2章 大数据分析概述
数据的7个“V”
2.1 数据分析简介
EDA:探究性数据分析提供手段;考查数据得方法、工具和技术,目的是在数据中找到相关模式,以及数据的各个元素之间的关系。
CDA:验证性数据分析提供结果;包含相关的方法、工具和技术,同时基于各种假设和统计学技术,或者对数据简单的观察,进而针对特定问题提供某种简介或结论。
2.2 大数据简介
多样性、速度、容量
准确性
可变性
可视化
数值
Variety Velocity Volume Veracity
2.3 使用Apache Hadoop的分布式计算
GFS -> HDFS
MapReduce V1(JobTracker&TaskTracker) -> MapReduce V2(YARN)
2.4 MapReduce框架
2.5 Hive
并不是为在线交易处理而设计的,也不提供实施查询和行级更新操作。
利用partitioned by 可根据1列或多列对表进行划分;
表或划分结果利用clustered by 进行分组;
数据可通过sort by 在桶中进行排序
第3章 基于MapReduce的大数据处理
底层原理
第4章 Python-Hadoop科学计算和大数据分析
4.1 安装操作
conda list
pip install hdfs
pip install pyarrow
jupyter notebook --generate-config
jupyter notebook password
jupyter notebook --allow-root --no-browser --ip=* --port=8888
4.2 数据分析
import pandas as pd
from hdfs import InsecureClient
client_hdfs = InsecureClien(‘http://localhost:9870’)
with client_hdfs.read(’/user/normal/OnlineRetail.csv’, encoding=‘utf-8’)
as reader:
df = df.read_csv(reader,index_col=0)
第5章 R-Hadoop统计数据计算
第6章 Apache Spark批处理分析
第7章 Apache Spark实时数据分析
第8章 Apache Flink批处理分析
第9章 Apache Flink流式分析
第10章 大数据可视化技术
一图胜千言
数据处理期间,需要持续对数据予以理解、应用和交互,与表、列或文本文件的读取操作相比,数据可视化更加简单明了。
通过数据分析方法得到某种结论后,我们需要在数据背景下对其加以进一步的理解。
10.1 大数据可视化简介
数据类型 - 图形表达类型
交互特征
数据 VS 结论
数据库、内存中数据可视化
10.2 Tableau
10.3 图表类型
线状图
饼图
柱状图
热力图