Hadoop 3 构建高效的大数据分析方案

Hadoop 3 构建高效的大数据分析方案

实时分析 流式处理
Python - Hive
Python - HDFS ✔

书籍 https://www.packtpub.com/free-ebook/big-data-analytics-with-hadoop-3/9781788628846
资料 https://www.packtpub.com/sites/default/files/downloads/BigDataAnalyticswithHadoop3_ColorImages.pdf

第1章 Hadoop简介

均衡器
纠删码
平衡器
50070 9870
3.x 新特性,2.x可靠性和性能。

第2章 大数据分析概述

数据的7个“V”

2.1 数据分析简介

EDA:探究性数据分析提供手段;考查数据得方法、工具和技术,目的是在数据中找到相关模式,以及数据的各个元素之间的关系。
CDA:验证性数据分析提供结果;包含相关的方法、工具和技术,同时基于各种假设和统计学技术,或者对数据简单的观察,进而针对特定问题提供某种简介或结论。

2.2 大数据简介

多样性、速度、容量
准确性
可变性
可视化
数值
Variety Velocity Volume Veracity

2.3 使用Apache Hadoop的分布式计算

GFS -> HDFS
MapReduce V1(JobTracker&TaskTracker) -> MapReduce V2(YARN)

2.4 MapReduce框架

2.5 Hive

并不是为在线交易处理而设计的,也不提供实施查询和行级更新操作。
利用partitioned by 可根据1列或多列对表进行划分;
表或划分结果利用clustered by 进行分组;
数据可通过sort by 在桶中进行排序

第3章 基于MapReduce的大数据处理

底层原理

第4章 Python-Hadoop科学计算和大数据分析

4.1 安装操作
conda list
pip install hdfs
pip install pyarrow
jupyter notebook --generate-config
jupyter notebook password
jupyter notebook --allow-root --no-browser --ip=* --port=8888
4.2 数据分析
import pandas as pd
from hdfs import InsecureClient
client_hdfs = InsecureClien(‘http://localhost:9870’)
with client_hdfs.read(’/user/normal/OnlineRetail.csv’, encoding=‘utf-8’)
as reader:
df = df.read_csv(reader,index_col=0)

第5章 R-Hadoop统计数据计算

第6章 Apache Spark批处理分析

第7章 Apache Spark实时数据分析

第8章 Apache Flink批处理分析

第9章 Apache Flink流式分析

第10章 大数据可视化技术

一图胜千言
数据处理期间,需要持续对数据予以理解、应用和交互,与表、列或文本文件的读取操作相比,数据可视化更加简单明了。
通过数据分析方法得到某种结论后,我们需要在数据背景下对其加以进一步的理解。

10.1 大数据可视化简介

数据类型 - 图形表达类型
交互特征
数据 VS 结论
数据库、内存中数据可视化

10.2 Tableau

10.3 图表类型

线状图
饼图
柱状图
热力图

10.4 基于Python的数据可视化

10.5 基于R的数据可视化

第11章 云计算简介

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值