- 博客(129)
- 资源 (11)
- 收藏
- 关注
原创 Hive 运算符总结
如果a,b,c任一个为null,则结果为null。: a或者b为null,则返回null;如果a小于等于b,则返回true,反之返回false。: a或者b为null,则返回null;如果a大于等于b,则返回true,反之返回false。: a或者b为null,则返回null;如果a不等于b,则返回true,反之返回false。:a或者b为null,则返回null;:a和b都为null,返回true,如果一边为null,返回false。: 如果a不等于Null,则返回true,反之返回false。
2023-04-22 23:00:29
679
原创 git命令保姆级教程
注意:在提交到本地和推送到远程之前要先拉取远程到本地,要不然会出现推送失败的情况,因为合并冲突导致的!注意:删除dev分支时,如果在dev分支,需要先切换到其他分支。添加修改的文件到暂存区。
2023-04-19 23:22:30
154
原创 Hive 数仓数据质量治理
数据质量是数据创建价值的保障基石,高质量的数据为数据统计、分析和应用提供了可信任的必要条件。数据质量管理是指在数据创建、加工、使用和迁移等过程中,通过开展数据质量定义、过程控制、监控、问题分析和整改、评估和考核等一系列管理活动,提高数据质量以满足业务要求。可按照"谁创建,谁负责;谁加工,谁负责;谁提供,谁负责"的原则界定数据质量管理责任,由数据流转环节的各责任方对管辖范围内的数据质量负责。对数据质量规则优先采取系统程序的自动化控制措施,并尽可能迁移管控点,从源头上控制数据质量。
2023-04-18 23:11:53
942
原创 记录 vue-cli 安装过程
如果开发大型项目,肯定需要考虑代码目录结构、项目结构和部署、热加载、代码单元测试等事情,那么你必然需要使用 VueCLI,使用 VueCLI 可以快速搭建 vue 开发环境以及对应的 webpack 配置。
2023-04-18 15:39:54
585
原创 Hive 分区表和分桶表
在《Hive 建表语句解析》文章中,建表的时候我们可以使用 PARTITIONED BY 子句和 CLUSTERED BY 子句来创建分区表和分桶表,为什么要创建分区表和分桶表呢?分区表和分桶表有什么区别呢?Hive 中分区和分桶的目的都是为了提高查询分析效率,在物理上划分数据范围,两者的区别是分桶可以在分区的基础上进行更细粒度的数据划分。好了,今天的分享就到这里了,博主还开通了vx公号【笑看风云路】,欢迎关注!
2023-04-18 09:54:40
420
1
原创 Hive和Impala中substring用法差异
最近一个小伙伴,突然接到业务抛出来的一个问题,说XX表的XX字段没有数据。那赶紧去Hue上去排查一下吧,在Hive上执行没问题,但在Impala上执行确实没有数据;通常业务那边使用Impala进行查询分析数据,这个小伙伴新来的,不太了解情况,以为在Hive上跑成功了就可以了,并没有在Impala上进行验证,才有了上述问题的出现。-- 截取tradetime的前八位日期数据事情很明了了,那么问题就出在substring这个函数上了!
2023-04-15 00:32:50
561
原创 Hive 浅谈DDL语法
Hive 不存储数据,是表到HDFS文件的映射关系。在HQL开发中,我们主要关注语法,今天就带着小伙伴们来了解一下每个 DDL 语句的语义。
2023-04-13 10:51:37
404
原创 Hive 有哪些地方可以进行压缩设置呢?
在Hive作业执行过程中,job执行速度更多的是局限于I/O,而不是受制于CPU。如果是这样,通过文件压缩可以提高作业性能。然而,如果作业的执行速度受限于CPU的性能,那么压缩文件可能就不合适,因为文件的压缩和解压会比较耗时。当然确定适合集群最优压缩方式可以通过实验测试,然后衡量结果。
2023-04-11 16:07:30
712
原创 Java设计模式之中介者模式
中介者模式(Mediator):用一个中介对象来封装一系列的对象交互。中介者使各对象不需要显式地相互引用,从而使其耦合松散,而且可以独立地改变它们之间的交互。这个模式我们可以简单的类比于星型结构,中介者就是中心,其他对象的交互都是通过中心的中介者作为媒介,而不是直接交互,这样就避免了对象直接交互导致的关系混乱,不易维护的缺点。UML图如下:abstract class Mediator //抽象...
2023-04-11 13:12:16
240
2
原创 Hive 作业中Reduce个数设置多少合适呢?
在上一篇文章《Hive 作业产生的map数越多越好还是越少越好?中介绍了map个数设置多少合适的问题,那么Reduce个数设置多少合适呢?今天就给小伙伴们聊一下Reduce个数设置方法以及设置多少合适的原则!reduce个数并不是越多越好,也不是越少越好!导致过多的启动和初始化操作,消耗时间和资源有多少个reduce,就会产生多少个输出文件,如果生成了很多小文件并且作为下一个job的输入,则会出现小文件过多问题。会导致任务执行效率低下,增加耗时和资源!
2023-04-11 10:21:39
572
原创 Hive 作业产生的map数越多越好还是越少越好?
通常情况下,作业会通过input目录产生一个或多个任务。input的文件总个数input的文件大小集群设置的文件块大小在Hive中,map个数并不是越多越好,也不是越少越少越好,而是根据不同的使用场景来调整map个数,从而来提高整个作业的执行效率。
2023-04-10 19:10:39
639
原创 Hive分区表的新增字段数据为null的问题解决方法
修改Hive分区表结构以后,元数据库中的SDS中该表对应的CD_ID会改变,但是该表历史分区下面对应的CD_ID还是原来表的CD_ID,导致无法获取新增加字段的值数据。使用cascade关键字之后,历史分区使用的元数据CD_ID也会统一修改,所以不存在通过insert overwrite覆写历史分区数据时出现新增字段为NULL的问题。注意:这种方法是预防insert overwrite覆写历史分区数据时出现新增字段为NULL的问题,等问题出现的时候就需要使用方法1来解决。
2023-04-07 11:05:33
1116
原创 This table may be a Hive-managed ACID table, or require some other capability that Spark问题解决
既然生成的是一个acid表,那么生成一个非acid表,是不是就可以解决这个问题了呢?
2023-04-07 10:05:18
425
原创 Hive Explain查看执行计划
在MySQL中,我们常常使用explain这个命令来查看一些SQL语句的执行计划,查看该SQL语句有没有使用上了索引,有没有做全表扫描,来了解MySQL当运行SQL语句时哪种策略预计会被优化器采用的细节。那么,在Hive中,也提供了explain命令来展示一个查询的执行计划,这个执行计划对于我们了解底层原理,hive调优,排查数据倾斜等方面,能够给我们的工作带来极大的便利,如果不懂hive中的explain,说明hive还没入门,今天就和小伙伴们一起深入学习一下!
2023-04-06 18:07:53
488
原创 MySQL中利用存储过程实现循环批量建表
最近遇到一个在MySQL中循环批量建表的问题,今天抽空记录一下实现过程!# 定义存储过程 DELIMITER $$ CREATE PROCEDURE create_table_batch() BEGIN # 定义循环次数 SET @i = 1;)');END IF;END WHILE;# 调用存储过程 call create_table_batch();
2023-04-06 11:36:35
1122
原创 Hive中order by,sort by,distribute by和cluster by详解
作为数据开发工程师,在平时工作中,肯定接到过产品小姐姐提的排序需求,例如在mysql数据库中,就是使用order by函数。在hive中也是有order by函数的,那么除了order by之外是否还有其他排序函数呢?今天就跟小伙伴们聊聊hive中有哪些排序函数以及使用场景!只有了解了各个排序函数的功能和使用场景,才能在开发过程中达到事半功倍的效果,提升HQL性能,节省计算资源,提质增效。
2023-03-31 22:12:40
1037
原创 hive get_json_object解析json结果为null咋办?
最近一位开发的同学在使用get_json_object函数对json数据解析的时候,出现了结果为null的问题,问题原因是sql语法导致的,那么今天就来详细介绍一下解析json函数的用法!最后还是提醒小伙伴们,在开发过程中,一定要注意sql语法格式的书写,避免一些意想不到的结果!
2023-03-30 14:06:26
2267
原创 HiveSQL优化技巧总结
基于Hive的开发过程中主要涉及到的可能是SQL优化这块。减少数据量(例如分区、列剪裁)避免数据倾斜(例如加参数、Key打散)避免全表扫描(例如on添加加上分区等)减少job数(例如相同的on条件的join放在一起作为一个任务)...
2022-08-24 22:28:09
1407
6
原创 聊一聊Spark序列化是干什么的?
大家好,我是风云,欢迎大家关注我的个人原创公众号【笑看风云路】获取更多大数据技术干货,在未来的日子里我们一起来学习大数据相关的技术,一起努力奋斗,遇见更好的自己!
2022-07-18 11:22:56
691
原创 聊一聊Spark实现TopN的几种方式
大家好,我是风云,欢迎大家关注我的个人原创公众号【笑看风云路】获取更多大数据技术干货,在未来的日子里我们一起来学习大数据相关的技术,一起努力奋斗,遇见更好的自己!
2022-07-15 11:23:53
2374
原创 Spark RDD持久化的三种方式
大家好,我是风云,欢迎大家关注我的个人原创公众号【笑看风云路】获取更多大数据技术干货,在未来的日子里我们一起来学习大数据相关的技术,一起努力奋斗,遇见更好的自己!扫码进,更快捷:在RDD中是不存储数据的,如果一个RDD需要重复使用,只是这个RDD对象是可以重用的,但是数据无法重用,那么需要从头再次执行来获取数据进行计算。Spark为了避免这种重复计算的情况,实现了RDD持久化功能。在Spark中,RDD的持久化算子有三个:cache、persist和checkpoint。缓存:如何缓存:语法:rdd.c
2022-07-14 10:19:03
1161
原创 Spark文件的读取和保存
在Spark中,提供了多种文件格式的读取和保存的API。数据的读取和保存可以从两个维度来区分文件格式和文件系统。文件格式分类text文件、Object文件和sequence文件。文件系统分类本地文件系统、HDFS等。解释object文件即对象文件,是将对象序列化后保存的文件,采用Java序列化机制。由于经过了序列化,故在读取数据的时候,需要指定对象类型。sequence文件是Hadoop用来存储二进制形式的K-V键值对而设计的一种平面文件(FlatFile)。httpshttps。......
2022-07-13 09:36:43
1327
原创 Spark创建RDD的几种方式
大家好,我是风云,欢迎大家关注我的个人原创公众号【笑看风云路】获取更多大数据技术干货,在未来的日子里我们一起来学习大数据相关的技术,一起努力奋斗,遇见更好的自己!扫码进,更快捷:在Spark中创建RDD的方式主要分为2种:1.读取内存数据创建RDD2.读取文件创建RDD读取内存数据创建RDD,Spark主要提供了两个方法:parallelize和makeRDD。使用makeRDD创建RDD的时候还可以指定分区数量。2、读取文件创建RDD读取文件创建RDD,Spark提供了textFile和whole
2022-07-12 10:18:17
2680
原创 掌握Scala基础知识,让你在Spark的学习道路上更近一步!
scala为啥如此重要呢?1、因为Spark是用scala开发的现在Spark是大数据领域的杀手级应用框架,大小企业中都会在搭建的大数据平台上,大量使用Spark来处理和分析数据,而要想学好Spark,Scala基础知识是必须要掌握的。2、功能强大且简练,适合大数据处理Scala将面向对象与函数式编程相结合,语法简洁而富有表达力,并且提供了强大的功能,非常适合用来处理各种数据。3、能够较好地融合大数据生态圈Scala是基于JVM的语言,可以与java进行无缝混编,而大数据生态组件大多都是java开发的,因此
2022-07-10 09:38:44
562
原创 一文学完Spark常用算子(Spark算子大全)
Spark RDD的算子分为转换算子(Transformation)和行动算子(Action)。转换算子分为:Value类型、双Value类型和K-V类型。将处理的数据逐条进行映射转换,这里的转换可以是类型的转换,也可以是值的转换...............
2022-07-08 11:31:03
9108
1
原创 Spark实现WordCount的11种方式,你知道的有哪些?
学习任何一门语言,都是从helloword开始,对于大数据框架来说,则是从wordcount开始,Spark也不例外,作为一门大数据处理框架,在系统的学习spark之后,wordcount可以有11种方式实现,你知道的有哪些呢?还等啥,不知道的来了解一下吧!...............
2022-07-07 11:39:33
1853
原创 改变思维,让你弯道超车的好习惯!
当你改变思维的时候,那么你观察这个世界的角度也发生了改变;当你拥有好的习惯的时候,那就好像装上了动力机器一样推着你在成功道路上不断前进!想那么多,不如行动起来,行动是排解杂念的良药养成做笔记的好习惯只有将看到的东西记录下来,这些东西才能成为自己的知识,否则只是昙花一现,什么都没留下!心情暴躁的时候坚持阅读,或者打扫房间,有效转移注意力每天最少花10分钟打扮自己,更加自信,更想表现自己每天早上,拿本书对着镜子大声朗读10分钟大声,可以提高精气神朗读,可以让你变得口齿伶俐镜子,可以让你调整到最佳姿态看书,可以拓
2022-07-05 08:34:47
194
原创 发生OOM了,你知道是什么原因吗,又该怎么解决呢?
撸java代码的同学,多多少少都会碰到内存溢出(OOM)的场景,但是造成OOM原因却不止一个。今天就来总结一下常见的OOM的原因以及解决方案。
2022-07-03 22:16:28
4946
原创 小白带你重游Spark生态圈!
肝了整整一天,终于把Spark的理论精髓给高度总结出来了,亲绘思维导图!让你对Spark生态圈有一个整体的概览!废话不多说,这就开始上图了… 好了,本篇主要为大家带来的就是博主为大家贡献的五张Spark的思维导图.........
2022-07-02 23:18:48
494
1
原创 Hadoop知识点总结——数据倾斜解决方法
在Mapper加上combiner相当于提前进行reduce,即把一个Mapper中的相同key进行了聚合,减少shuffle过程中传输的数据量,以及Reducer端的计算量。第一次在map阶段对那些导致了数据倾斜的key 加上随机前缀,这样本来相同的key 也会被分到多个Reducer中进行局部聚合,数量就会大大降低。第二次mapreduce,去掉key的随机前缀,进行全局聚合。思想:二次mr,第一次将key随机散列到不同reducer进行处理达到负载均衡目的。第二次再根据去掉key的随机前缀,按原k
2022-06-14 09:53:33
356
原创 Hadoop知识点总结——HDFS小文件过多问题、解决方法
每个文件均按块存储,每个块的元数据存储在NameNode的内存中,因此HDFS存储小文件会非常低效。因为大量的小文件会耗尽NameNode中的大部分内存。每个小文件都会对应启动一个MapTask,1个MapTask默认内存1G,造成资源浪费。HDFS存档文件或HAR文件,是一个更高效的文件存档工具,它将文件存入HDFS块,在减少NameNode内存使用的同时,允许对文件进行透明的访问。具体说来,HDFS存档文件对内还是一个一个独立文件,对NameNode而言却是一个整体,减少了NameNode的内存。Com
2022-06-14 09:41:52
2339
AT89C51交通灯控制系统设计
2013-06-18
java实现各语种检测的工具,多语种混合的按比例最高的语种返回,中文(zh-cn/zh-tw)、日本语(ja)、韩国语(ko)
2022-06-23
hadoop on window
2022-06-23
Hive3.1.2编译源码
2022-05-20
20news-bydate_py3.pkz下载
2020-12-18
mxGraph插件
2018-05-26
js实现树形结构
2018-05-18
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅