bigdata_users-CSDN博客

原创工作中写hivesql容易犯错误的事项

最近工作由于接业务事项较多，发现写sql及容易犯的事项，即便工作多年的老sqlboy，也会犯这种错误，特此总结一下：1、null 字段不能做为关联字段，如果关联字段中有null，请用下边方式写，否则会丢失数据nvl(a.col,'-')=nvl(b.col,'-')2、where条件里的!= 会过滤值为null的数据这个和1的情况处理方式一样nvl(a.col,'-')!=3、左连接写也会数据倾斜，需要将数据单独取出处理数据量特别大的情况下连接也会出现数据倾斜，通常处理方式是将数据量特别

2022-04-10 11:29:50 174

转载 Hadoop切分纯文本时对某一行跨两个分片这种情况的处理

hdfs写入文件需要把大文件分割成多个块，那么有可能会把文件的某一个行分成在不同的块中；这是一个出现分块的时候。还有个就是我的上篇博文中说到的，在mapreduce处理时，当hdfs分块的block大小大于split设置的最大值时也会分割成多个split分片，相当于对块的进一步切割。但是这两种情况出现的概率都很小。当我们提交一个MapReduce程序来处理一个或多个纯文本时，Hadoop会根据设置的分片（split）大小把文件切分成多个（InputSplit），然后分配给MapReduce程序处理。而由于

2022-04-10 11:09:31 383

bigdata_users的博客

原创工作中写hivesql容易犯错误的事项

转载 Hadoop切分纯文本时对某一行跨两个分片这种情况的处理

原创 hive中laterview explode加row_number() 实现排序功能

原创 Flink从kafka读取数据写入到mysql中，然后任务提交到集群

原创 Flink解析binlog方案

原创 Flink自定义 Sink 函数从kafka往kudu写数据

原创 Flink处理kafka中复杂json数据、自定义get_json_object函数实现打印数据

原创 Dataworks集成开发平台IntelliJ IDEA

原创 hive中udf、udtf、udaf函数说明和写法（直接上代码）

转载 Windows下配置Hadoop环境（全过程）

原创面试用神sql--套路--开拓思路

原创面试用神sql--套路--累计报表

原创面试经常被问到，linux下递归删除某个目录下的指定文件！！！

转载 hive中分析函数总结

原创 Oracle回顾--常用函数（2）

原创 Oracal回顾--分析函数总结（1）

原创 Centos6.X安装mysql 5.5.48的方法，mysql创建用户及权限控制

原创 Linux基础回顾--shell脚本awk命令详解（6）

原创 Linux基础回顾--shell脚本sed命令详解（5）

原创 Linux基础回顾--shell脚本编程知识点大全（4）

原创 Linux基础回顾--其它常用命令，磁盘、用户权限等（3）

原创 Linux基础回顾--vim编辑器（2）

原创 Linux基础回顾--基础指令（1）

空空如也

空空如也