hadoop知识点
文章平均质量分 75
Hadoop是一种开源的分布式计算平台,用于处理大规模数据和实现并行计算。它能够在廉价的硬件设备上存储和处理PB级别的数据,并保证数据的安全性和可靠性。
小布先生~噫嘘唏
每天进步一点
展开
-
Apache Hive函数高阶应用、性能调优
explode函数 lateral view 侧视图 行列转换 多行转单列 单列转多行 json格式数据处理 hive 窗口函数 窗口函数语 窗口聚合函数 window_expression 窗口排序函数、窗口序列函数 ntile函数 Hive的数据压缩 Hive的数据存储格式 Hive通用调优Fetch抓取机制 mapreduce本地模式 join优化 group by 数据倾斜优化原创 2023-05-15 08:34:35 · 1863 阅读 · 0 评论 -
Apache Hive SQL DQL
Hive SQL--DQL-Select select语法树 CLUSTER BY 分桶查询 DISTRIBUTE BY+SORT BYunion联合查询 CTE表达式 Hive SQL join查询 Hive Shell命令行 bin/hive Hive参数配置方式 Hive内置运算符Hive函数 Hive常用的内置函数 String Functions 字符串函数 Date Functions 日期函数 Mathematical Functions 数学函数原创 2023-05-14 08:36:14 · 1053 阅读 · 0 评论 -
Apache Hive
Hive的概念 Hive的架构组件 Hive和Mysql的区别 Hive的安装部署 Metadata、metastore 内嵌模式 本地模式 远程模式 Hive的远程模式部署安装 安装Hive Hive 服务的启动 metastore服务 Hive的客户端原创 2023-05-13 08:28:39 · 1060 阅读 · 0 评论 -
数据仓库基础
数据仓库的概念 数据仓库核心特征 面向主题性 集成性 不可更新性 时变性数据库和数据仓库的区别 数据仓库分层架构 ETL和ELT原创 2023-05-13 08:16:04 · 1465 阅读 · 0 评论 -
Hadoop相关
大数据相关导论 Zookeeper Hadoop HDFS MR Yarn 数据仓库原创 2023-05-07 08:00:00 · 1510 阅读 · 0 评论 -
Hadoop HDFS
首先是一个文件系统,就是用来存储文件、存储数据。是大数据最底层一个服务。其次是一个分布式的文件系统。分布式意味着多台机器存储。场景互动:如何模拟实现分布式文件系统。或者说一个成熟的分布式文件系统应该要具备哪些属性、功能呢?分布式多台机器存储记录元数据分块存储副本机制(备份)原创 2023-05-06 00:00:00 · 1795 阅读 · 0 评论 -
Apache Hadoop
狭义上:hadoop指的是Apache一款java开源软件,是一个大数据分析处理平台。Hadoop HDFS:分布式文件系统。 解决了海量数据存储问题。 Hadoop MapReduce:分布式计算框架。解决海量数据计算问题。 Hadoop YARN:集群资源管理和任务调度。 1.2、Hadoop起源发展 Hadoop之父--Doug Cutting 卡大爷 起源项目Apache Nutch。 致力于构建一个全网搜索引擎。原创 2023-05-05 00:45:00 · 1521 阅读 · 0 评论 -
如何理解Map Join
mapjoin还有一个很大的好处是能够进行不等连接的join操作,如果将不等条件写在where中,那么mapreduce过程中会进行笛卡尔积,运行效率特别低,如果使用mapjoin操作,在map的过程中就完成了不等值的join操作,效率会高很多。该语句中B表有30亿行记录,A表只有100行记录,而且B表中数据倾斜特别严重,有一个key上有15亿行记录,在运行过程中特别的慢,而且在reduece的过程中遇到执行时间过长或者内存不够的问题。在MAPJOIN中,可以使用不等值连接或者使用OR连接多个条件;原创 2023-04-29 09:05:12 · 2021 阅读 · 0 评论 -
Hive为什么要分桶?
不同于分区对列直接进行拆分,桶往往使用列的哈希值对数 据打散,并分发到各个不同的桶中从而完成数据的分桶过程。注意,hive使用对分桶所用的值进行hash,并用hash结果除以桶的个数做。在数据量足够大的情况下,分桶比分区有更高的查询效率。3. 分桶是按照列的哈希函数进行分割的,相对。的方式来桶, 保证了每个桶中都有数据,但每个桶中的数据条数。,因为load data导入的数据不会 有分桶结构。而不是全部结果, 通过对采样数据的分析,来达到。而分区是按照列的值来进行分割的, 容易造成。原创 2023-04-29 08:32:53 · 2221 阅读 · 0 评论 -
Hive严格模式
对关系型数据库非常了解的用户可能期望在执行JOIN查询的时候不使用ON语句而是使用where语句, 这样关系数据库的执行优化器就可以高效地将WHERE语句转化成那个ON语句。不幸的是,Hive并不会执行这种优化,因此,如 果表足够大,那么这个查询就会出现不可控的情况。进行这个限制的原因是,通常分区表都拥有非常大的数据集,而且数据增加迅速。Hive提供了一个严格模式,可以防止用户执行那些可能意向不到的不好的影响的查询。使用了order by语句的查询,要求必须使用limit语句。限制笛卡尔积的查询。原创 2023-04-28 10:29:50 · 1691 阅读 · 0 评论 -
Hive动态分区和分桶使用场景和使用方法
按照数据表的某列或某些列分为多个分区,分区从形式上可以理解为文件夹,比如我们要收集某个大型 网站的日志数据,一个网站每天的日志数据存在同一张表上,由于每天会生成大量的日志,导致数据表 的内容巨大,在查询时进行全表扫描耗费的资源非常多。那其实这个情况下,我们可以按照日期对数据 进行分区,不同日期的数据存放在不同的分区,在查询时只要指定分区字段的值就可以直接从该分区查 找。• 通过普通表选出的字段包含分区字段,分区字段放置在最后,多个分区字段按照分区顺序放置。• 根据分区字段的实际值,动态进行分区。原创 2023-04-27 18:39:54 · 3777 阅读 · 1 评论 -
mapreduce优化方法
也就是说,buffer和reduce是没有直接关联的,中间多个一个写磁盘->读磁盘的过程,既然有这个弊端, 那么就可以通过参数来配置,使得buffer中的一部分数据可以直接输送到reduce,从而减少IO开销: mapred.job.reduce.input.buffer.percent,默认为0.0。1)合并小文件:在执行mr任务前将小文件进行合并,大量的小文件会产生大量的map任务,增大map任务装载次数,而 任务的装载比较耗时,从而导致 mr 运行较慢。1)采用数据压缩的方式,减少网络IO的的时间。原创 2023-04-26 08:37:14 · 2395 阅读 · 1 评论 -
Mapreduce推测执行算法及原理
发现拖后腿的任务,比如某个任务运行速度远慢于任务平均速度。为拖后腿任务启动一个备份任务,同时运行。一个作业由若干个Map任务和Reduce任务构成。因硬件老化、软件Bug等,某些任务可能运行非常慢。典型案例:系统中有99%的Map任务都完成了,只有少数几个Map老是进度很慢,完不成,怎么办?2)当前job已完成的task必须不小于0.05(5%)2)特殊任务,比如任务向数据库中写数据。1)任务间存在严重的负载倾斜;1)作业完成时间取决于最慢的任务完成时间。3)执行推测任务的前提条件。完,则采用谁的结果。原创 2023-04-25 20:17:57 · 1621 阅读 · 0 评论 -
HDFS的存储机制(读写流程)
HDFS存储机制,包括HDFS的写入过程和读取过程两个部分读取过程客户端向namenode请求上传文件,namenode检查目标文件是否已经存在,父目录是否存在。Namenode向客户端返回是否可以上传。客户端请求第一个block块上传到哪些datanode服务器上。Namenode返回三个datanode节点,分别为dn1,dn2,dn3.客户端请求dn1上传数据,dn1收到请求会继续调用dn2,然后dn2调用dn3,将这个通信管道建立完成。dn1、dn2、dn3逐级应答客户端。原创 2023-04-23 11:38:21 · 1845 阅读 · 1 评论