笑看风云路-CSDN博客

原创 Hive 运算符总结

如果a，b，c任一个为null，则结果为null。： a或者b为null，则返回null；如果a小于等于b，则返回true，反之返回false。： a或者b为null，则返回null；如果a大于等于b，则返回true，反之返回false。： a或者b为null，则返回null；如果a不等于b，则返回true，反之返回false。：a或者b为null，则返回null；：a和b都为null，返回true，如果一边为null，返回false。: 如果a不等于Null，则返回true，反之返回false。

2023-04-22 23:00:29 679

原创 Hive 数据导出的方式有哪几种，你了解吗？

注意：export 和 import主要用于两个Hadoop平台集群之间hive 表迁移。

2023-04-22 22:34:38 554

原创 git命令保姆级教程

注意：在提交到本地和推送到远程之前要先拉取远程到本地，要不然会出现推送失败的情况，因为合并冲突导致的！注意：删除dev分支时，如果在dev分支，需要先切换到其他分支。添加修改的文件到暂存区。

2023-04-19 23:22:30 154

原创 Hive 自定义UDF函数的保姆级教程

自定义一个udf函数实现计算给定字符串的长度

2023-04-19 22:42:38 177

原创 Hive 数仓数据质量治理

数据质量是数据创建价值的保障基石，高质量的数据为数据统计、分析和应用提供了可信任的必要条件。数据质量管理是指在数据创建、加工、使用和迁移等过程中，通过开展数据质量定义、过程控制、监控、问题分析和整改、评估和考核等一系列管理活动，提高数据质量以满足业务要求。可按照"谁创建，谁负责；谁加工，谁负责；谁提供，谁负责"的原则界定数据质量管理责任，由数据流转环节的各责任方对管辖范围内的数据质量负责。对数据质量规则优先采取系统程序的自动化控制措施，并尽可能迁移管控点，从源头上控制数据质量。

2023-04-18 23:11:53 942

原创记录 vue-cli 安装过程

如果开发大型项目，肯定需要考虑代码目录结构、项目结构和部署、热加载、代码单元测试等事情，那么你必然需要使用 VueCLI，使用 VueCLI 可以快速搭建 vue 开发环境以及对应的 webpack 配置。

2023-04-18 15:39:54 585

原创 Hive 分区表和分桶表

在《Hive 建表语句解析》文章中，建表的时候我们可以使用 PARTITIONED BY 子句和 CLUSTERED BY 子句来创建分区表和分桶表，为什么要创建分区表和分桶表呢？分区表和分桶表有什么区别呢？Hive 中分区和分桶的目的都是为了提高查询分析效率，在物理上划分数据范围，两者的区别是分桶可以在分区的基础上进行更细粒度的数据划分。好了，今天的分享就到这里了，博主还开通了vx公号【笑看风云路】，欢迎关注！

2023-04-18 09:54:40 420 1

原创 Hive 浅谈DML语法

在《Hive 浅谈DDL语法》文章中主要介绍了DDL语法，今天就来聊聊 Hive 中的DML语法。

2023-04-17 17:28:17 426

原创 Hive 内部表和外部表对比

在创建表的过程中，会有内部表和外部表之分，那么它们有哪些差别呢，分别的使用场景是什么呢？

2023-04-17 10:44:36 491 1

原创 Hive和Impala中substring用法差异

最近一个小伙伴，突然接到业务抛出来的一个问题，说XX表的XX字段没有数据。那赶紧去Hue上去排查一下吧，在Hive上执行没问题，但在Impala上执行确实没有数据；通常业务那边使用Impala进行查询分析数据，这个小伙伴新来的，不太了解情况，以为在Hive上跑成功了就可以了，并没有在Impala上进行验证，才有了上述问题的出现。-- 截取tradetime的前八位日期数据事情很明了了，那么问题就出在substring这个函数上了！

2023-04-15 00:32:50 561

原创 Hive 建表语句解析

在上篇文章《Hive 浅谈DDL语法》中我留了一个小尾巴，今天来还债了，为大家详细介绍一下Hive的建表语句。

2023-04-14 15:00:27 700 2

原创 Hive 浅谈DDL语法

Hive 不存储数据，是表到HDFS文件的映射关系。在HQL开发中，我们主要关注语法，今天就带着小伙伴们来了解一下每个 DDL 语句的语义。

2023-04-13 10:51:37 404

原创 Hive 有哪些地方可以进行压缩设置呢？

在Hive作业执行过程中，job执行速度更多的是局限于I/O，而不是受制于CPU。如果是这样，通过文件压缩可以提高作业性能。然而，如果作业的执行速度受限于CPU的性能，那么压缩文件可能就不合适，因为文件的压缩和解压会比较耗时。当然确定适合集群最优压缩方式可以通过实验测试，然后衡量结果。

2023-04-11 16:07:30 712

原创 Java设计模式之中介者模式

中介者模式（Mediator）：用一个中介对象来封装一系列的对象交互。中介者使各对象不需要显式地相互引用，从而使其耦合松散，而且可以独立地改变它们之间的交互。这个模式我们可以简单的类比于星型结构，中介者就是中心，其他对象的交互都是通过中心的中介者作为媒介，而不是直接交互，这样就避免了对象直接交互导致的关系混乱，不易维护的缺点。UML图如下：abstract class Mediator //抽象...

2023-04-11 13:12:16 240 2

原创 Hive 作业中Reduce个数设置多少合适呢？

在上一篇文章《Hive 作业产生的map数越多越好还是越少越好？中介绍了map个数设置多少合适的问题，那么Reduce个数设置多少合适呢？今天就给小伙伴们聊一下Reduce个数设置方法以及设置多少合适的原则！reduce个数并不是越多越好，也不是越少越好！导致过多的启动和初始化操作，消耗时间和资源有多少个reduce，就会产生多少个输出文件，如果生成了很多小文件并且作为下一个job的输入，则会出现小文件过多问题。会导致任务执行效率低下，增加耗时和资源！

2023-04-11 10:21:39 572

原创 Hive 作业产生的map数越多越好还是越少越好？

通常情况下，作业会通过input目录产生一个或多个任务。input的文件总个数input的文件大小集群设置的文件块大小在Hive中，map个数并不是越多越好，也不是越少越少越好，而是根据不同的使用场景来调整map个数，从而来提高整个作业的执行效率。

2023-04-10 19:10:39 639

原创 Hive分区表的新增字段数据为null的问题解决方法

修改Hive分区表结构以后，元数据库中的SDS中该表对应的CD_ID会改变，但是该表历史分区下面对应的CD_ID还是原来表的CD_ID，导致无法获取新增加字段的值数据。使用cascade关键字之后，历史分区使用的元数据CD_ID也会统一修改，所以不存在通过insert overwrite覆写历史分区数据时出现新增字段为NULL的问题。注意：这种方法是预防insert overwrite覆写历史分区数据时出现新增字段为NULL的问题，等问题出现的时候就需要使用方法1来解决。

2023-04-07 11:05:33 1116

原创 This table may be a Hive-managed ACID table, or require some other capability that Spark问题解决

既然生成的是一个acid表，那么生成一个非acid表，是不是就可以解决这个问题了呢？

2023-04-07 10:05:18 425

原创 Hive Explain查看执行计划

在MySQL中，我们常常使用explain这个命令来查看一些SQL语句的执行计划，查看该SQL语句有没有使用上了索引，有没有做全表扫描，来了解MySQL当运行SQL语句时哪种策略预计会被优化器采用的细节。那么，在Hive中，也提供了explain命令来展示一个查询的执行计划，这个执行计划对于我们了解底层原理，hive调优，排查数据倾斜等方面，能够给我们的工作带来极大的便利，如果不懂hive中的explain，说明hive还没入门，今天就和小伙伴们一起深入学习一下！

2023-04-06 18:07:53 488

原创 MySQL中利用存储过程实现循环批量建表

最近遇到一个在MySQL中循环批量建表的问题，今天抽空记录一下实现过程！# 定义存储过程 DELIMITER $$ CREATE PROCEDURE create_table_batch() BEGIN # 定义循环次数 SET @i = 1;)');END IF;END WHILE;# 调用存储过程 call create_table_batch();

2023-04-06 11:36:35 1122

原创 Hive中order by，sort by，distribute by和cluster by详解

作为数据开发工程师，在平时工作中，肯定接到过产品小姐姐提的排序需求，例如在mysql数据库中，就是使用order by函数。在hive中也是有order by函数的，那么除了order by之外是否还有其他排序函数呢？今天就跟小伙伴们聊聊hive中有哪些排序函数以及使用场景！只有了解了各个排序函数的功能和使用场景，才能在开发过程中达到事半功倍的效果，提升HQL性能，节省计算资源，提质增效。

2023-03-31 22:12:40 1037

原创 hive get_json_object解析json结果为null咋办？

最近一位开发的同学在使用get_json_object函数对json数据解析的时候，出现了结果为null的问题，问题原因是sql语法导致的，那么今天就来详细介绍一下解析json函数的用法！最后还是提醒小伙伴们，在开发过程中，一定要注意sql语法格式的书写，避免一些意想不到的结果！

2023-03-30 14:06:26 2267

原创 HiveSQL优化技巧总结

基于Hive的开发过程中主要涉及到的可能是SQL优化这块。减少数据量（例如分区、列剪裁）避免数据倾斜（例如加参数、Key打散）避免全表扫描（例如on添加加上分区等）减少job数（例如相同的on条件的join放在一起作为一个任务）...

2022-08-24 22:28:09 1407 6

原创聊一聊Spark序列化是干什么的？

大家好，我是风云，欢迎大家关注我的个人原创公众号【笑看风云路】获取更多大数据技术干货，在未来的日子里我们一起来学习大数据相关的技术，一起努力奋斗，遇见更好的自己！

2022-07-18 11:22:56 691

原创聊一聊Spark实现TopN的几种方式

2022-07-15 11:23:53 2374

原创 Spark RDD持久化的三种方式

大家好，我是风云，欢迎大家关注我的个人原创公众号【笑看风云路】获取更多大数据技术干货，在未来的日子里我们一起来学习大数据相关的技术，一起努力奋斗，遇见更好的自己！扫码进，更快捷：在RDD中是不存储数据的，如果一个RDD需要重复使用，只是这个RDD对象是可以重用的，但是数据无法重用，那么需要从头再次执行来获取数据进行计算。Spark为了避免这种重复计算的情况，实现了RDD持久化功能。在Spark中，RDD的持久化算子有三个：cache、persist和checkpoint。缓存：如何缓存：语法：rdd.c

2022-07-14 10:19:03 1161

原创 Spark文件的读取和保存

在Spark中，提供了多种文件格式的读取和保存的API。数据的读取和保存可以从两个维度来区分文件格式和文件系统。文件格式分类text文件、Object文件和sequence文件。文件系统分类本地文件系统、HDFS等。解释object文件即对象文件，是将对象序列化后保存的文件，采用Java序列化机制。由于经过了序列化，故在读取数据的时候，需要指定对象类型。sequence文件是Hadoop用来存储二进制形式的K-V键值对而设计的一种平面文件（FlatFile）。httpshttps。......

2022-07-13 09:36:43 1327

原创 Spark创建RDD的几种方式

大家好，我是风云，欢迎大家关注我的个人原创公众号【笑看风云路】获取更多大数据技术干货，在未来的日子里我们一起来学习大数据相关的技术，一起努力奋斗，遇见更好的自己！扫码进，更快捷：在Spark中创建RDD的方式主要分为2种：1.读取内存数据创建RDD2.读取文件创建RDD读取内存数据创建RDD，Spark主要提供了两个方法：parallelize和makeRDD。使用makeRDD创建RDD的时候还可以指定分区数量。2、读取文件创建RDD读取文件创建RDD，Spark提供了textFile和whole

2022-07-12 10:18:17 2680

原创掌握Scala基础知识，让你在Spark的学习道路上更近一步！

scala为啥如此重要呢？1、因为Spark是用scala开发的现在Spark是大数据领域的杀手级应用框架，大小企业中都会在搭建的大数据平台上，大量使用Spark来处理和分析数据，而要想学好Spark，Scala基础知识是必须要掌握的。2、功能强大且简练，适合大数据处理Scala将面向对象与函数式编程相结合，语法简洁而富有表达力，并且提供了强大的功能，非常适合用来处理各种数据。3、能够较好地融合大数据生态圈Scala是基于JVM的语言，可以与java进行无缝混编，而大数据生态组件大多都是java开发的，因此

2022-07-10 09:38:44 562

原创一文学完Spark常用算子（Spark算子大全）

Spark RDD的算子分为转换算子（Transformation）和行动算子（Action）。转换算子分为：Value类型、双Value类型和K-V类型。将处理的数据逐条进行映射转换，这里的转换可以是类型的转换，也可以是值的转换...............

2022-07-08 11:31:03 9108 1

原创 Spark实现WordCount的11种方式，你知道的有哪些？

学习任何一门语言，都是从helloword开始，对于大数据框架来说，则是从wordcount开始，Spark也不例外，作为一门大数据处理框架，在系统的学习spark之后，wordcount可以有11种方式实现，你知道的有哪些呢？还等啥，不知道的来了解一下吧！...............

2022-07-07 11:39:33 1853

原创改变思维，让你弯道超车的好习惯！

当你改变思维的时候，那么你观察这个世界的角度也发生了改变；当你拥有好的习惯的时候，那就好像装上了动力机器一样推着你在成功道路上不断前进！想那么多，不如行动起来，行动是排解杂念的良药养成做笔记的好习惯只有将看到的东西记录下来，这些东西才能成为自己的知识，否则只是昙花一现，什么都没留下！心情暴躁的时候坚持阅读，或者打扫房间，有效转移注意力每天最少花10分钟打扮自己，更加自信，更想表现自己每天早上，拿本书对着镜子大声朗读10分钟大声，可以提高精气神朗读，可以让你变得口齿伶俐镜子，可以让你调整到最佳姿态看书，可以拓

2022-07-05 08:34:47 194

原创发生OOM了，你知道是什么原因吗，又该怎么解决呢？

撸java代码的同学，多多少少都会碰到内存溢出（OOM）的场景，但是造成OOM原因却不止一个。今天就来总结一下常见的OOM的原因以及解决方案。

2022-07-03 22:16:28 4946

原创小白带你重游Spark生态圈！

肝了整整一天，终于把Spark的理论精髓给高度总结出来了，亲绘思维导图！让你对Spark生态圈有一个整体的概览！废话不多说，这就开始上图了… 好了，本篇主要为大家带来的就是博主为大家贡献的五张Spark的思维导图.........

2022-07-02 23:18:48 494 1

原创 Hadoop知识点总结——数据倾斜解决方法

在Mapper加上combiner相当于提前进行reduce，即把一个Mapper中的相同key进行了聚合，减少shuffle过程中传输的数据量，以及Reducer端的计算量。第一次在map阶段对那些导致了数据倾斜的key 加上随机前缀，这样本来相同的key 也会被分到多个Reducer中进行局部聚合，数量就会大大降低。第二次mapreduce，去掉key的随机前缀，进行全局聚合。思想：二次mr，第一次将key随机散列到不同reducer进行处理达到负载均衡目的。第二次再根据去掉key的随机前缀，按原k

2022-06-14 09:53:33 356

原创 Hadoop知识点总结——HDFS小文件过多问题、解决方法

每个文件均按块存储，每个块的元数据存储在NameNode的内存中，因此HDFS存储小文件会非常低效。因为大量的小文件会耗尽NameNode中的大部分内存。每个小文件都会对应启动一个MapTask，1个MapTask默认内存1G，造成资源浪费。HDFS存档文件或HAR文件，是一个更高效的文件存档工具，它将文件存入HDFS块，在减少NameNode内存使用的同时，允许对文件进行透明的访问。具体说来，HDFS存档文件对内还是一个一个独立文件，对NameNode而言却是一个整体，减少了NameNode的内存。Com

2022-06-14 09:41:52 2339

原创 Mapreduce实例（十）：ChainMapReduce

MR实现ChainMapReduce

2022-06-02 09:47:41 473

原创 Mapreduce实例（九）：Reduce端join

MR实现Reduce端join

2022-06-02 09:13:42 511

原创 Mapreduce实例（八）：Map端join

MR实现Map端join

2022-06-01 21:09:32 597

原创 Mapreduce实例（七）：单表join

MR实现单表join

2022-06-01 18:39:20 440

大量csv文件导入iceberg的最快方式.txt

大量csv文件导入iceberg的最快方式，适用于大数据开发人员！

2023-04-02

AT89C51交通灯控制系统设计

基于AT89C51的交通灯设计利用单片机的定时器定时，令十字路口的红绿灯交替点亮和熄灭，并用LED灯显示倒计时间。1、东西绿灯亮，南北红灯亮 2、黄灯亮 3、东西红灯亮，南北绿灯亮

2013-06-18

baiduwenku-download.zip

可以使用此工具根据链接下载（baidu）文库的所有文章（vip等）

2023-04-03

win10家庭版wifi消失.docx

windows 10家庭版wifi消失解决办法

2023-04-02

12306Bypass.zip

12306Bypass.

2023-04-02

java虚拟机思维导图.png

java虚拟机思维导图

2023-04-02

Java 最常见的 200+ 面试题汇总以及答案总结汇总.pdf

Java 最常见的 200+ 面试题汇总以及答案，适用于java全栈工程师

2023-04-02

java经典面试题100.pdf

java经典100个面试题

2023-04-02

Intellij使用说明文档.pdf

Intellij IDEA 使用说明文档，让你轻松玩转这款强大的代码IDE

2023-04-02

TeamViewer14全套换ID版本以及教程.zip

TeamViewer14 换ID版本

2023-04-02

java编译文件反编译工具.zip

具有超强的java编译文件的反编译功能

2023-04-01

大数据开发工程师简历模板

2023-03-31

java实现各语种检测的工具，多语种混合的按比例最高的语种返回，中文（zh-cn/zh-tw）、日本语(ja)、韩国语(ko)

2022-06-23

hadoop on window

解压后将bin目录(包含以下.dll和.exe文件)文件替换原来hadoop目录下的bin目录；将hadoop.dll文件拷贝一份到C:\Windows\System32下，解决window下本地运行mr任务报错问题

2022-06-23

Hive3.1.2编译源码

使用hive3.1.2和spark3.0.0配置hive on spark的时候，发现官方下载的hive3.1.2和spark3.0.0不兼容，hive3.1.2对应的版本是spark2.3.0，而spark3.0.0对应的hadoop版本是hadoop2.6或hadoop2.7。所以，如果想要使用高版本的hive和hadoop，我们要重新编译hive，兼容spark3.0.0。除了兼容spark3.0.0外，还将hive3.1.2的guava的版本进行了提升，和hadoop3.x保持一致，以便兼容hadoop3.1.3。

2022-05-20

jdk安装教程

详细的描述了eclipse的运行环境jdk安装的全过程以及验证安装是否成功

2018-05-22

全国省市区对应的JSON地图数据大全

可以适用于某些插件实现省市区三级地图，进行省市区三级联动的地图Json数据

2018-05-21

20news-bydate_py3.pkz下载

Scikit-Learn机器学习之监督学习模型案例集-新闻/邮件文本内容分类（朴素贝叶斯算法模型）素材,将其放在本机指定目录下，例如~/scikit_learn_data，无需再去下载，解决下载错误的问题

2020-12-18

mxGraph插件

mxClient这个js包含并动态导入了所有文件。当前版本信息存储在mxClient.VERSION。　　editor编辑器包提供实现图编辑器所需的类。这个包中的主要类是mxEditor。　　view视图和model模型包实现了由mxGraph表示的图形组件。它是一个mxGraphModel，包含mxcell，以及mxGraphView中缓存单元格的状态。根据mxStylesheet.样式表中定义的外观，使用mxcell渲染器来绘制单元格。撤销历史在mxUndoManager中实现。要在图上显示一个图标，可以使用mxCellOverlay。验证规则使用 mxMultiplicity进行定义。

2018-05-26

js实现树形结构

js实现树形结构 function Node(id, pid, name, url, title, target, icon, iconOpen, open) { this.id = id; this.pid = pid; this.name = name; this.url = url; this.title = title; this.target = target; this.icon = icon; this.iconOpen = iconOpen; this._io = open || false; this._is = false; this._ls = false; this._hc = false; this._ai = 0; this._p; };

2018-05-18

功能很强大的橡皮筋类

一种能够实现截屏功能的橡皮筋类，非常好用的一个类，很方便，有人想要实现截屏功能的同学，可以试一试这个类。

2015-10-09

实现圆形按钮

圆形按钮的实现，基于对话框的MFC的代码实现的，请有需要的可以下载看看！

2014-11-09

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人