Hadoop基础

最新推荐文章于 2024-07-22 14:10:58 发布

怒跑四公里

最新推荐文章于 2024-07-22 14:10:58 发布

阅读量166

点赞数

分类专栏：大数据文章标签：大数据 hadoop hdfs

本文链接：https://blog.csdn.net/shiyaqing810/article/details/82418824

版权

大数据专栏收录该内容

3 篇文章 0 订阅

订阅专栏

1.什么是大数据
大数据核心含义是一种技术革新
随着互联网时代的深入，产生了越来越多的数据，比如：
1.电商产生的大量用户浏览、购物行为
2.移动运营商记录了大量的用户上网行为
3.网络舆情——营销支撑
4.金融系统征信分析
。。。。。。
上述的这些需求，用以前的传统技术无法胜任，需要有一个全新的技术体系来支撑，再次背景之下，就产生了一系列针对海量数据进行处理的技术
总结：“大数据”这个概念核心是指一系列针对海量数据进行处理的新技术
大数据技术的主要功能：处理海量数据

2.大数据应用场景
个性化的推荐：基于海量的用户行为、用户画像实现精准推荐
淘宝：已购买宝贝，系统查询功能的实现都需要依赖大数据技术，需要快速响应的海量数据库系统

3.大数据技术简介
大数据技术基本上都需要解决两个核心需求：
1.数据存储
一般都是采用分布式存储
将数据（文件）分散到一个集群上的N多台机器上存储
2.数据运算
什么叫运算：
有一堆用户浏览商品的行为记录，需要统计出最热门的TOP100个商品；
每个人一次访问平均浏览了多少个商品；
每一个商品被人浏览时，同事还会有哪些商品跟随着被浏览；
上述这些数据分析需求，最终都会转化成程序来实现，程序的运行最终又是机器CPU+内存+磁盘等硬件资源的运行
在海量数据的场景下，单机资源无法满足运算的需求，所以，在大数据体系下，一切数据运算的逻辑实现都得靠：分布式运算系统

4.什么是Hadoop
上文所述，分布式存储，分布式运算，都应该由成熟的框架来提供
Hadoop就是其中的一种框架
Hadoop就能提供分布式存储以及分布式运算的功能
1.Hadoop中有一个组件：HDFS——分布式存储
2.Hadoop中有一个组件：MAPREDUCE——分布式运算
3.HADOOP中有一个组件：YARN——为MAPREDUCE提供硬件资源调度
但是HADOOP的核心组件，极为底层，如果直接基于这个底层框架来开发我们的数据分析逻辑，比较繁琐，开发效率很低，所以，在HADOOP这个底层框架之上，又衍生了大量的快捷开发工具：
1.HIVE
可以让用户只要写SQL来表达数据处理逻辑即可

5.HDFS快速入门
5.1HDFS集群的安装
5.1.1HDFS集群中机器的角色
两类核心角色：
1.主节点（1台）：NAME NODE
2.从节点（N多台）：DATA NODE
其实就是在机器上安装一个软件，又叫网络服务，分别监听各自机器的端口
5.1.2HDFS安装
1.准备机器，4台机器，1台NN，3台DN
准备的内容，主机名，IP地址，域名映射，防火墙，JDK安装
2.上传Hadoop的安装包
上传到一台机器就行了，nn
3.解压安装包到/root/apps
4.修改配置文件
进去 $HADOOP_HOME/etc/hadoop 1.修改hadoop-env.sh javahome 2.修改core-site.xml 3.修改hdfs-site.xml secondary 5.复制修改好的安装包到其他节点 6.初始化namenode namenode 在机器上运行时，会记录一些数据，数据的记录，又一个人特定的目录机构，那么应该在namenode启动之前先构造出这样一个目录$ HADOOP_HOME/bin/hadoop namenode-format
7.启动集群
启动namenode节点
hadoop-daemon.sh start namenode
启动所有datenode节点
hadoop-daemon.sh start datanode
可以访问namenode提供的信息页面
hdp-nn-01:50070
出错排查日志
slaves 配置datanode
start-dfs.sh
stop-dfs.sh

5.2Hadoop源码文件介绍
share mapreduce hdfs yarn 的地方
lib 本地库，C语言，和Linux系统底层交互的一些库
.txt 发行许可
include 本地库的一些依赖
bin 一些功能命令
sbin 移动、停止、重启命令。系统命令
etc 配置文件

6.自定义HDFS分布式存储系统
代码TODO

7.HDFS的工作机制简介
7.1HDFS的基本特性
提供文件目录结构
namenode只负责管理元数据
7.2HDFS的基本操作
7.2.1如何启动一个命令行的hdfs客户端
任何一台机器上，只要有Hadoop的安装包，就可以启动
启动命令 hadoop fs 参数
7.3命令行客户端的常用功能
1.上传文件到集群中
hadoop fs -put 本地路径 hdfs上的路径
hadoop fs -put /root/a.txt /
相同功能的另一种写法
hadoop fs -copyFromLocal 本地路径 hdfs上的路径
2.下载文件到本地
hadoop fs -get hdfs上的路径
hadoop fs -get/a.txt
相同功能的另一种写法
hadoop fs -copyToLocal hdfs上的路径
3.查看hdfs中的目录信息
hadoop fs -ls /
4.创建文件
hadoop fs -mkdir /aaa
hadoop fs -mkdir -p /bbb/ccc
5.删除文件夹
hadoop fs -rm -r /bbb
hadoop fs -rm 文件名
6.查看文本文件内容
hadoop fs -cat /a.txt

8.HDSF如何动态扩容
扩容就是增加datanode
datanode可以在线扩容
1.准备一台服务器，配置好环境：网络、IP、防火墙、免密登陆、JDK
2.从原集群的任意一台机器上复制Hadoop安装包到新机器
3.在原集群的slaves文件中添加新机器的主机名
4.在新机器上启动datanode即可
A.直接用start-dfs.sh
B.或者在新机器上手动启动datanode进程 hadoop-daemon.sh start data

9.HDFS的一些配置属性
1.块大小：128M
HDFS中存储的文件块可以有多个副本，默认3个
参数：dfs.blocksize 默认：134217728
此参数用户客户端也就是说，HDFS里面存储的文件块的块大小完全由客户端决定
2.副本数量
HDFS中存储的文件块的副本数量，默认3个
参数：dfs.replication 默认：3
第一个副本：存在离客户端最近的一台datanode上
第二个副本：存在跟上一台datanode相同的机架的另一台datanode上
第三个副本：存在另一个机架上的某台datanode上
此参数用户客户端也就是说，HDFS里面存储的文件块的副本数量完全由客户端决定
3.元数据存储目录
元数据存储目录就是namenode的工作目录，由以下参数决定
参数：dfs.namenode.name.dir 默认：file:// ${hadoop.tmp.dir}/dfs/name 此参数是给namenode服务端程序使用此参数默认值在生产中并不合适，应该给namenode专门配置一个安全的位置作为工作目录正确做法：应该给namenode配置多个目录，而且这多个目录应该挂在多个磁盘 dfs.namenode.name.dir /mnt/disk1,/mnt/disk2,/mnt/disk3,nfs:// 配置多个目录后，namenode会往各目录中写入相同的数据作为冗余备份 4.datanode文件块存储目录 datanode的工作目录也是参数可配的参数：dfs.datanode.data.dir 默认：file://$ {hadoop.tmp.dir}/dfs/data
默认配置在生产系统中并不合适，应该：
让datanode的工作目录指定到服务器上用于存储数据的多块数据磁盘上

dfs.datanode.data.dir
/data/disk1,/data/disk2,/data/disk3

配置多个目录后，datanode会往各目录中轮询写入不同的数据，以扩大datanode自身的容量

10.写数据原理解析
这里写图片描述

11.读数据原理解析
这里写图片描述

12.namenode工作原理解析
这里写图片描述

怒跑四公里

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Hadoop基础

1.什么是大数据大数据核心含义是一种技术革新随着互联网时代的深入，产生了越来越多的数据，比如： 1.电商产生的大量用户浏览、购物行为 2.移动运营商记录了大量的用户上网行为 3.网络舆情——营销支撑 4.金融系统征信分析。。。。。。上述的这些需求，用以前的传统技术无法胜任，需要有一个全新的技术体系来支撑，再次背景之下，就产生了一系列针...
复制链接

扫一扫