Hadoop 3 构建高效的大数据分析方案_高效专业分析hadoop-CSDN博客

本文链接：https://blog.csdn.net/hezuijiudexiaobai/article/details/117744789

Hadoop 3 构建高效的大数据分析方案

实时分析流式处理
Python - Hive
Python - HDFS ✔

书籍 https://www.packtpub.com/free-ebook/big-data-analytics-with-hadoop-3/9781788628846
资料 https://www.packtpub.com/sites/default/files/downloads/BigDataAnalyticswithHadoop3_ColorImages.pdf

第1章 Hadoop简介

均衡器
纠删码
平衡器
50070 9870
3.x 新特性，2.x可靠性和性能。

第2章大数据分析概述

数据的7个“V”

2.1 数据分析简介

EDA：探究性数据分析提供手段；考查数据得方法、工具和技术，目的是在数据中找到相关模式，以及数据的各个元素之间的关系。
CDA：验证性数据分析提供结果；包含相关的方法、工具和技术，同时基于各种假设和统计学技术，或者对数据简单的观察，进而针对特定问题提供某种简介或结论。

2.2 大数据简介

多样性、速度、容量
准确性
可变性
可视化
数值
Variety Velocity Volume Veracity

2.3 使用Apache Hadoop的分布式计算

GFS -> HDFS
MapReduce V1(JobTracker&TaskTracker) -> MapReduce V2(YARN)

2.4 MapReduce框架

2.5 Hive

并不是为在线交易处理而设计的，也不提供实施查询和行级更新操作。
利用partitioned by 可根据1列或多列对表进行划分；
表或划分结果利用clustered by 进行分组；
数据可通过sort by 在桶中进行排序

第3章基于MapReduce的大数据处理

底层原理

第4章 Python-Hadoop科学计算和大数据分析

4.1 安装操作
conda list
pip install hdfs
pip install pyarrow
jupyter notebook --generate-config
jupyter notebook password
jupyter notebook --allow-root --no-browser --ip=* --port=8888
4.2 数据分析
import pandas as pd
from hdfs import InsecureClient
client_hdfs = InsecureClien(‘http://localhost:9870’)
with client_hdfs.read(’/user/normal/OnlineRetail.csv’, encoding=‘utf-8’)
as reader:
df = df.read_csv(reader,index_col=0)