大数据数仓
文章平均质量分 66
_七七
delicate.
展开
-
Hive3.x数仓开发
文章目录一、数仓仓库概念二、数据仓库分层架构ODS\DW\DA(ADS)ETL\ELT三、Hive 概述一、数仓仓库概念二、数据仓库分层架构ODS\DW\DA(ADS)ETL\ELT三、Hive 概述Metastore配置方式Hive部署<property> <name>hadoop.proxyuser.root.hosts</name> <value>*</value></pr原创 2022-06-10 11:05:15 · 1779 阅读 · 1 评论 -
Yarn 常用命令、Yarn 生产环境核心参数配置案例、Yarn 容量调度器多队列提交
文章目录零、开启集群一、Yarn 常用命令yarn application 查看任务yarn logs 查看日志yarn applicationattempt 查看尝试运行的任务yarn container 查看容器yarn node 查看节点状态yarn rmadmin 更新配置yarn queue 查看队列二、Yarn 生产环境核心参数配置案例三、Yarn 容量调度器多队列提交1、 需求2、配置多队列的容量调度器3、向 Hive 队列提交任务4、任务优先级零、开启集群1)Hadoop集群启停脚本(包原创 2022-03-10 11:03:16 · 1007 阅读 · 0 评论 -
MapReduce 概述、核心思想
文章目录MapReduce 概述优点缺点MapReduce 核心思想MapReduce 框架原理MapTask 并行度决定机制ReduceTask 并行度决定机制MapReduce 开发总结MapReduce 概述MapReduce 是一个分布式运算程序的编程框架MapReduce 核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序优点1)MapReduce 易于编程它简单的实现一些接口,就可以完成一个分布式程序2)良好的扩展性的计算资源不能得到满足的时候,简单的原创 2022-03-02 17:50:07 · 2308 阅读 · 0 评论 -
SecondaryNameNode的CheckPoint 时间设置
1)通常情况下,SecondaryNameNode 每隔一小时执行一次。hdfs-default.xml<property> <name>dfs.namenode.checkpoint.period</name> <value>3600s</value></property>2)一分钟检查一次操作次数,当操作次数达到 1 百万时,SecondaryNameNode 执行一次。<property> &l原创 2022-02-28 17:57:05 · 163 阅读 · 0 评论 -
NameNode 和 SecondaryNameNode: Fsimage 和 Edits 解析、ovi命令、oev命令
文章目录NameNode 和 SecondaryNameNode: Fsimage 和 Edits 解析、ovi命令、oev命令一、SecondaryNamenode, 专门用于 FsImage 和 Edits 的合并。二、 Fsimage 和 Edits 解析Fsimage和Edits概念1)oiv 查看 Fsimage 文件2)oev 查看 Edits 文件NameNode 和 SecondaryNameNode: Fsimage 和 Edits 解析、ovi命令、oev命令一、Secondary原创 2022-02-28 17:56:38 · 549 阅读 · 0 评论 -
HDFS节点距离与副本存储节点选择
网络拓扑-节点距离计算在 HDFS 写数据的过程中,NameNode 会选择距离待上传数据最近距离的 DataNode 接 收数据。最近的距离怎么计算呢?节点距离:两个节点到达最近的共同祖先的距离总和。副本存储节点选择第一个副本在Client所处的节点上。one replica on the local machine第二个副本在另一个机架的随机 一个节点another replica on a node in a different (remote) rack第三个副本在第二个副本所在原创 2022-02-28 17:14:59 · 410 阅读 · 0 评论 -
HDFS写入数据流程、读数据流程
HDFS写入数据流程(1)客户端通过 Distributed FileSystem 模块向 NameNode 请求上传文件,NameNode 检查目标文件是否已存在,父目录是否存在。(2)NameNode 返回是否可以上传。(3)客户端请求第一个 Block (0-128M)上传到哪几个 DataNode 服务器上。(4)NameNode 返回 3 个 DataNode 节点,分别为 dn1、dn2、dn3。(5)客户端通过 FSDataOutputStream 模块请求 dn1 上传数据,dn转载 2022-02-28 16:41:53 · 304 阅读 · 0 评论 -
HDFS的Shell操作
文章目录HDFS 的 Shell 操作基本语法1)启动 Hadoop 集群2)上传3)下载4)HDFS 直接操作HDFS 的 Shell 操作基本语法hadoop fs 具体命令 OR hdfs dfs 具体命令1)启动 Hadoop 集群sbin/start-dfs.shsbin/start-yarn.sh2)上传1)-moveFromLocal:从本地剪切粘贴到 HDFS hadoop fs -moveFromLocal ./test.txt /hdfs2)-copyFro原创 2022-02-28 14:15:44 · 180 阅读 · 0 评论 -
Hadoop集群入门配置
文章目录Hadoop概述Hadoop组成HDFS架构概述YARN架构概述MapReduce架构概述一、模板虚拟机环境准备1、hadoop100虚拟机配置要求如下1、安装epel-release2、net-tool:工具包集合3、关闭防火墙,关闭防火墙开机自启4、创建用户 并修改密码5、(可选)配置liyuhao用户具有root权限,方便后期加sudo执行root权限的命令6、在/opt目录下创建文件夹,并修改所属主和所属组7、卸载虚拟机自带的JDK二、克隆虚拟机1)利用模板机hadoop100,克隆三台虚拟原创 2022-02-24 14:35:55 · 1524 阅读 · 0 评论 -
Hadoop bash: jps: 未找到命令...
错误:[root@hadoop102 hadoop]# jpsbash: jps: 未找到命令…解决:yum install java-1.8.0-openjdk-devel.x86_64[root@hadoop102 hadoop]# java -versionjava version "1.8.0_321"Java(TM) SE Runtime Environment (build 1.8.0_321-b07)Java HotSpot(TM) 64-Bit Server VM (bui原创 2022-02-23 14:25:39 · 4601 阅读 · 0 评论 -
Hadoop beyond the ‘VIRTUAL‘ memory limit.问题解决
错误:Container [pid=95788,containerID=container_1645494729047_0005_01_000002] is running 249903616B beyond the 'VIRTUAL' memory limit. Current usage: 65.4 MB of 1 GB physical memory used; 2.3 GB of 2.1 GB virtual memory used. Killing container.解决:1、在/opt/原创 2022-02-23 14:06:07 · 2942 阅读 · 6 评论 -
数仓数据处理与数据流向
文章目录一、数据流向数据运营层(ODS)数据采集数据仓库(DW)DWD:data warehouse details 格式化预处理DWB:data warehouse baseDWS:data warehouse service数据服务层/应用层(ADS)二、数据仓库数据处理流程数据采集日志类文件DB数据源数据采集数据入库数据清洗ODS数据轻度聚合 DWS一、数据流向源数据—FTP—FLUME框架—HDFS分布式文件系统—INT—DWD数据运营层(ODS)数据采集ODS:Operation Data原创 2021-08-16 11:24:51 · 3576 阅读 · 0 评论