SQL
文章平均质量分 89
SQL
虎鲸不是鱼
谁说我懒?再勤奋就变成高产的母猪了
展开
-
在Ubuntu20.04部署Flink1.17实现基于Flink GateWay的Hive On Flink的踩坑记录(一)
在Ubuntu20.04部署Flink1.17实现基于Flink GateWay的Hive On Flink。DDL可以正常使用原创 2023-05-22 02:35:50 · 1595 阅读 · 5 评论 -
【五一创作】使用Scala二次开发Spark3.3.0实现对MySQL的upsert操作
本文介绍使用Scala对Spark做二次开发实现对MySQL执行upsert操作的原理及实现原创 2023-04-29 18:05:05 · 3842 阅读 · 3 评论 -
使用Java写一个Hive的UDF将中文转为拼音【借助pinyin4j-2.5.1】
使用Java写一个Hive的UDF将中文转为拼音【借助pinyin4j-2.5.1】原创 2023-03-28 23:08:45 · 679 阅读 · 4 评论 -
从Hive源码解读大数据开发为什么可以脱离SQL、Java、Scala
本文将以大数据开发中最常见的数仓组件Hive的drop table为例,抛砖引玉,解读为神马大数据开发可以脱离SQL、Java、Scala。原创 2023-03-24 02:14:16 · 1797 阅读 · 4 评论 -
使用Shell传参解决DataPhin中PySpark不支持中文的问题
使用Shell传参解决DataPhin中PySpark不支持中文的问题原创 2023-03-21 22:28:58 · 430 阅读 · 0 评论 -
Hive拉链表
使用HQL写一个Hive On Tez任务,以便跑出拉链表数据原创 2023-03-20 23:37:09 · 2076 阅读 · 0 评论 -
Hive On Tez小文件合并的技术调研
调研了Hive On Tez的3种小文件合并的方式原创 2023-03-13 23:52:35 · 939 阅读 · 2 评论 -
使用Java编写Hive的UDF实现身份证号码校验及15位升级18位
使用Java编写UDF给Hive SQL使用,实现身份证15位转18位、18位身份证校验原创 2023-02-25 20:35:56 · 1051 阅读 · 6 评论 -
Spark3.3.0的DataFrame及Spark SQL编程的性能对比【单机模式下】
对比了Spark3.3.0的DataFrame及Spark SQL编程的性能,分析出Shuffle性能瓶颈可能是硬盘IO或者交换机带宽原创 2022-12-16 01:46:02 · 1543 阅读 · 3 评论 -
使用Flink1.16.0的SQLGateway迁移Hive SQL任务
根据FFA2022,讲解HQL任务借助Flink sql Gatew迁移到Flink1.16.0原创 2022-12-06 00:16:14 · 2142 阅读 · 1 评论 -
使用Spark的foreach算子及UDTF函数实现MySQL数据的一对多【Java】
本文用Spark的foreach算子及UDTF函数及纯SQL的3种方式实现了MySQL数据的一对多运算,主要使用Java原创 2022-11-29 00:28:35 · 1194 阅读 · 3 评论 -
【集群迁移】使用Shell脚本获取老集群整个Hive库的建库、建表DDL
【集群迁移】使用Shell脚本获取老集群整个Hive库的建库、建表DDL原创 2022-11-09 20:31:56 · 1070 阅读 · 2 评论 -
使用Spark读写Parquet文件验证Parquet自带表头的性质及NULL值来源【Java】
使用Spark读写Parquet文件验证Parquet自带表头的性质及NULL值来源【Java】原创 2022-11-04 21:55:05 · 1269 阅读 · 1 评论 -
Spark的RDD编程模拟RPAD函数效果实现数据右侧填充空格等内容以便文件对齐【Java】
Spark的RDD编程模拟RPAD函数效果实现数据右侧填充空格等内容以便文件对齐【Java】原创 2022-11-03 23:55:21 · 198 阅读 · 2 评论 -
使用Spark实现推主机群Hive数据到租户集群Hive的高性能Hive2Hive数据集成【Java】需编写JDBC连接Hive解析元数据
使用Spark实现推主机群Hive数据到租户集群Hive的高性能Hive2Hive数据集成【Java】需编写JDBC连接Hive解析元数据原创 2022-11-03 22:50:56 · 898 阅读 · 4 评论 -
编写Spark的UDF函数解决Hive表大数【bigint、double、float、decimal等】转字符串string时出现的科学计数法问题【Java】
编写Spark的UDF函数解决Hive表大数【bigint、double、float、decimal等】转字符串string时出现的科学计数法问题【Java】原创 2022-10-31 21:39:58 · 1896 阅读 · 2 评论 -
Hive3.1.2自带的系统函数及UDF的随系统自动注册
本文探索了Hive3.1.2自带的系统函数,并找到随系统自动注册UDF的方法原创 2022-10-24 21:10:01 · 1422 阅读 · 2 评论 -
在DataPhin基于PySpark实现主键重复就自动失败以提高运维的半自动化水平
在DataPhin基于PySpark实现主键重复就自动失败以提高运维的半自动化水平原创 2022-10-24 18:30:00 · 874 阅读 · 4 评论 -
在Ubuntu20.04安装StarRocks On Docker并在DataGrip配置JDBC协议连接容器内StarRocks2.3.2
在Ubuntu20.04安装StarRocks On Docker并在DataGrip配置JDBC协议连接容器内StarRocks2.3.2原创 2022-09-10 02:59:57 · 2126 阅读 · 0 评论 -
在Ubuntu20.04安装单节点ClickHouse22.8.4并解决DB::NetException: Connection refused NETWORK_ERROR导致无法远程访问的问题
在Ubuntu20.04安装单节点ClickHouse22.8.4并解决DB::NetException: Connection refused NETWORK_ERROR导致无法远程访问的问题原创 2022-09-07 08:54:30 · 1776 阅读 · 1 评论 -
Tez的web UI简单体验
简单体验Tez的web UI并分析各stage耗时,学习CDP7的Hive On Tez调优策略原创 2022-09-06 08:37:39 · 1025 阅读 · 3 评论 -
Hive3.1.2的HQL执行过程
Hive3.1.2的HQL执行过程原创 2022-09-04 13:30:10 · 678 阅读 · 1 评论 -
beeline中所有Hadoop及Hive可调参数
beeline中所有Hadoop及Hive可调参数原创 2022-09-01 00:38:30 · 894 阅读 · 2 评论 -
Hive3.1.2的Beeline执行过程
Hive3.1.2的Beeline执行过程原创 2022-09-01 00:37:22 · 2250 阅读 · 1 评论 -
使用Java继承UDF类或GenericUDF类给Hive3.1.2编写UDF实现编码解码加密解密并运行在USDP大数据集群
使用Java继承UDF类或GenericUDF类给Hive3.1.2编写UDF实现编码解码加密解密并运行在USDP大数据集群原创 2022-08-05 22:16:45 · 2028 阅读 · 2 评论 -
HQL中NULL=NULL结果为NULL导致的问题
HQL中NULL=NULL结果为NULL导致的问题原创 2022-05-20 00:05:24 · 685 阅读 · 5 评论 -
记一次基于CBO的Oracle SQL调优
记一次基于CBO的Oracle SQL调优原创 2022-04-23 23:35:49 · 1984 阅读 · 0 评论 -
Impala使用SQL即席查询出现AnalysisException: Could not resolve table reference:的解决办法
创建外部表解决Impala使用SQL即席查询出现AnalysisException: Could not resolve table reference:的问题原创 2021-07-04 21:13:06 · 13418 阅读 · 7 评论 -
Spark操作Kudu
Spark操作Kudu概述Maven依赖操作Kudu表操作Kudu数据用SparkSQL操作Kudu使用Java API操作Kudu概述大数据常用Spark,Spark又是用Scala写的,所以。。。只会Java操作并不够,还得会用Scala语言操作。。。当然也不是给纯小白看的,直接show code。。。Maven依赖 <!-- 指定仓库位置,依次为aliyun、cloudera和jboss仓库 --> <repositories> <原创 2021-06-29 23:09:21 · 833 阅读 · 2 评论 -
使用Java API 操作Kudu
使用Java API 操作Kudu概述Maven依赖操作Kudu表操作Kudu数据概述不是给纯小白看的,也就不谈概念这种废话了,直接上代码。。。使用一个叫KuduPlus的小工具辅助测试。Maven依赖 <!-- 指定仓库位置,依次为aliyun、cloudera和jboss仓库 --> <repositories> <repository> <id>aliyun</id>原创 2021-06-29 22:58:10 · 583 阅读 · 2 评论 -
Phoenix入门
本文概述Phoenix原创 2021-05-27 23:38:14 · 1989 阅读 · 6 评论 -
大数据离线业务场景中的增量技术
本文讲述大数据离线业务场景中的增量采集、增量处理、增量导出原创 2021-05-16 20:10:47 · 1331 阅读 · 5 评论 -
Hive入门(七)Hive优化
本文讲述Hive优化原创 2021-05-13 20:51:49 · 432 阅读 · 7 评论 -
Flume基础
本文讲述Flume基础原创 2021-05-09 10:05:01 · 730 阅读 · 0 评论 -
Sqoop基础
本文讲述Sqoop基础原创 2021-05-09 00:01:29 · 1431 阅读 · 3 评论 -
Hive入门(六)函数提升
本文讲述Hive的窗口函数原创 2021-05-06 11:00:00 · 700 阅读 · 1 评论 -
Hive入门(五)函数入门
Hive入门(五)函数原创 2021-05-05 23:10:28 · 773 阅读 · 4 评论 -
DataGrip连接Hive
本文讲述如何使用DataGrip连接Hive原创 2021-05-05 19:46:39 · 720 阅读 · 0 评论 -
Hive概述
本问概述Hive原创 2021-05-05 14:00:41 · 3093 阅读 · 8 评论 -
Hive入门(二)
本文讲述Hive的客户端、服务端、启动脚本、SQL脚本、常用命令、日志配置原创 2021-05-02 23:24:21 · 1924 阅读 · 3 评论