大数据基础篇_01

最新推荐文章于 2024-10-05 11:27:00 发布

快打钱！

最新推荐文章于 2024-10-05 11:27:00 发布

阅读量1.8k

点赞数 55

文章标签：大数据

本文链接：https://blog.csdn.net/a666b777/article/details/139884073

版权

说明

该篇文章用于大数据的初学人群进行交流学习

本章内容主要是对大数据概念，常用技术栈及常用架构Hadoop的介绍。以及hdfs相关的机制的介绍

大数据概述

什么是大数据：从狭义上来讲是处理海量数据的软件技术体系，从广义上来讲是数字化，信息化时代的支撑，以数据为生活赋能

大数据能够解决的问题：海量数据的存储，计算，传输问题。

大数据特征： 数据体量大，发展速度快，种类多，准确性未知，价值密度

大数据技术栈

存储：HDFS（Hadoop disturbited file system）,Hbase等

计算： Mapreduce Hive Spark Flink等

传输： sqoop flume kafka Pulsar等

Hadoop简介

广义:整个Hadoop的生态圈，包括数据采集，存储，计算，传输，调度等组件

狭义:Hadoop框架本身，包括HDFS、Mapreduce、YARN

Hadoop基于linux的相关配置指令

（1）启动hadoop集群

#切换至linux的hadoop的文件目录下
cd /export/server/hadoop/
#同时启动
start-all.sh
hdfs start-dfs.sh 
单独启动
yarn start -yarn.sh
同时关闭关闭
stop-all.sh

这样就算执行成功了

（2）启动历史服务

mapred --daemon start historyserver 启动历史日志
jps 查看正在进行的jar进程

（3）页面访问hadoop

1.访问HDFS 虚拟机地址:9870

如果看到以下页面说明你成功了

2.访问YARN 虚拟机地址:8088

如果看到以下页面说明你成功了

3.访问历史日志虚拟机地址:19888

如果看到以下页面说明你成功了

Haddop集群案列（相当于各种语言的helloworld）

评估圆周率

第一步：切入Hadoop mapreduce文件下
具体命令为:cd /export/server/hadoop-3.3.0/share/hadoop/mapreduce
第二步：找到example路径：hadoop-mapreduce-examples-3.3.0.jar
第三步：评估圆周率命令为：hadoop jar hadoop-mapreduce-examples-3.3.0.jar pi 10 10

如果看到以下页面说明你成功了

HDFS的架构

1.概念

hdfs是一种分布式的文件存储系统

为什么要进行分布式存储?

避免文件太大，单台服务器无法承担，靠多台服务器分区存储。同时可以获得成倍的传输、写入

读取效率。

2.基础架构

HDFS集群有两个重要角色：Namenode Datanode

四个重要组件：HDFS Client、namenode、datanode 和Secondary Namenode

如图所示为hdfs的基础架构图及各个组件的主要功能

3.HDFS 切块

概念：hdfs存取文件时并不是直接存取的，而是将文件切成数个128M的block块

为什么要切块？

因为文件太大会影响传输效率和读取效率

4.NameNode 如何管理BLOCK块

需要了解俩个文件：

edits：用于记录hdfs的每一个操作，以及本次操作所影响的block

fsimage：edits 文件合并的结果

namenode元数据管理维护：每次对hdfs的操作都会记录在edits中，每个edits达到上限以后开启新的edits，多个edits会定期合并成fsimage。

SecondaryNameNode元数据合并：SecondaryNameNode会通过http从NameNode拉取数据（edits和fsimage）然后合并完成后提供给NameNode使用。

注：

对于元数据的合并，是一个定时过程，基于： dfs.namenode.checkpoint.period，默认3600（秒）即1小时 dfs.namenode.checkpoint.txns，默认1000000，即100W次事务）

5.HDFS的面向存储的三大机制

副本机制：为了保证数据安全和效率，block块信息存储多个副本

负载均衡机制：namenode为了保证不同的datanode中block块信息大体一样,分配存储任务的时候会优先保存在余量比较大datanode上

心跳机制：datanode每隔3秒钟向namenode汇报自己的状态信息,如果某个时刻,datanode连续10次不汇报了,namenode会认为datanode有可能宕机了,namenode就会每5分钟(300000毫秒)发送一次确认消息,连续2次没有收到回复,就认定datanode此时一定宕机了