SQL
文章平均质量分 84
未来在这儿
熟悉k8s、docker;熟悉Spark Streaming,Storm,Flink,Hadoop,Hive,Redis,Kafka,RocketMQ,ES;熟悉Socket,AIO/NIO技术,熟练使用Gradle、Maven、Spring Boot2、SpringMVC、MyBatis; 熟炼掌握Oracle、MySql、SQLite、MongoDB等数据库开发 熟悉React、Vue等框架 ;熟练运用Git/Github, SVN,CC等 熟悉报表工具BI、ETL工具Kettle ;熟悉Asp.net平台,熟悉C#;熟练开发安卓和ios
展开
-
数仓建设(一)
想了想,我们的数仓的建设是基于大数据平台进行的,中间也经历了比较曲折的过程。每个行业都有自身的业务区别,不过很多还是比较相通的。本文将全面讲解数仓建设规范,从数据模型规范,到数仓公共规范,数仓各层规范,最后到数仓命名规范,包括表命名,指标字段命名规范等!目录:一、数据模型架构原则二、数仓公共开发规范三、数仓各层开发规范四、数仓命名规范。原创 2023-10-18 00:07:23 · 319 阅读 · 0 评论 -
30分钟掌握 Hive SQL 优化(解决数据倾斜)
如果joinkey有集中的空值热点值,这些空值会聚集到少数个分区中,导致长尾问题。原创 2023-02-07 08:30:00 · 4070 阅读 · 17 评论 -
Hive分析窗口函数(五) GROUPING SETS,GROUPING__ID,CUBE,ROLLUP
这几个分析函数通常用于OLAP中,不能累加,而且需要根据不同维度上钻和下钻的指标统计,比如,分小时、天、月的UV数。转载 2023-02-03 08:45:00 · 204 阅读 · 0 评论 -
Hive分析窗口函数(三) CUME_DIST,PERCENT_RANK
这两个序列分析函数不是很常用,这里也介绍一下。(什么是WINDOW子句,转载 2023-02-03 08:30:00 · 429 阅读 · 1 评论 -
Hive分析窗口函数(二) NTILE,ROW_NUMBER,RANK,DENSE_RANK
本文中介绍前几个序列函数,NTILE,ROW_NUMBER,RANK,DENSE_RANK,下面会一一解释各自的用途。转载 2023-02-02 23:11:00 · 246 阅读 · 0 评论 -
Hive分析窗口函数(四) LAG,LEAD,FIRST_VALUE,LAST_VALUE
注意: 这几个函数不支持WINDOW子句。(什么是WINDOW子句,点此查看前面的文章 )数据准备:LAGLAG(col,n,DEFAULT) 用于统计窗口内往上第n行值第一个参数为列名,第二个参数为往上第n行(可选,默认为1),第三个参数为默认值(当往上第n行为NULL时候,取默认值,如不指定,则为NULL)LEAD与LAG相反LEAD(col,n,DEFAULT) 用于统计窗口内往下第n行值第一个参数为列名,第二个参数为往下第n行(可选,默认为1),第三个参数为默认转载 2023-02-02 08:37:29 · 449 阅读 · 1 评论 -
Hive分析窗口函数(一) SUM,AVG,MIN,MAX
Hive中提供了越来越多的分析函数,用于完成负责的统计分析。抽时间将所有的分析窗口函数理一遍,将陆续发布。今天先看几个基础的,SUM、AVG、MIN、MAX。用于实现分组内所有和连续累积的统计。转载 2023-02-02 08:34:00 · 305 阅读 · 0 评论 -
SQL Server 关键词
保留关键字是 SQL Server 使用的 Transact-SQL 语言语法的一部分,用于分析和理解 Transact-SQL 语句和批处理。尽管在 Transact-SQL 脚本中,使用 SQL Server 保留关键字作为标识符和对象名在语法上是可行的,但规定只能使用分隔标识符。有关更多信息,请参见。说明 SQL-92 保留关键字列表有时可能比 SQL Server 限制更多,有时则限制更少。例如,SQL-92 保留关键字列表包含 INT,而 SQL Server 不需要将其区分为保留关键字。原创 2023-01-31 10:50:40 · 981 阅读 · 4 评论 -
Hive函数大全–完整版(二)
Hive自带的UDF函数非常多,整理出来相关用法和注释。如果该文档对你的学习和工作有所帮助,那么请多多支持我。原创 2023-01-23 10:08:33 · 451 阅读 · 0 评论 -
Hive MetaStore 元数据库常见操作
hive元数据库中比较重要的一些表的作用,我们可以通过mysql元数据库分析相关字段引用情况,为我们定位和处理问题提供支持。同时可以用来分析现在的数据的存取情况。原创 2023-01-28 08:30:00 · 772 阅读 · 1 评论 -
Hive-基本操作入门
Hive是一种数据库技术,可以定义数据库和表来分析结构化数据。主题结构化数据分析是以表方式存储数据,并通过查询来分析。本章介绍如何创建Hive 数据库。配置单元包含一个名为 default 默认的数据库。原创 2023-01-23 21:38:33 · 558 阅读 · 2 评论 -
Hive函数大全–完整版(三)
Hive QL(HQL)简明使用指南原创 2023-01-23 10:12:59 · 314 阅读 · 3 评论 -
Hive函数大全–完整版(一)
现在虽然有很多SQL ON Hadoop的解决方案,像Spark SQL、Impala、Presto等等,但就目前来看,在基于Hadoop的大数据分析平台、数据仓库中,Hive仍然是不可替代的角色。尽管它的相应延迟大,尽管它性能可能不够优秀,但是它太方便、功能太强大了,做离线批量计算、ad-hoc查询甚至是实现数据挖掘算法,而且,和HBase、Spark、Tez都能整合使用。Hive自带的UDF函数非常多,整理出来有40多页。如果你是做大数据分析平台和数据仓库相关的,就目前来说,我建议,Hive是必须的。原创 2023-01-22 23:24:33 · 3447 阅读 · 0 评论 -
Hive入门实战(一)概述与使用
Hive简介,HIVE入门系列,主要讲述HIVE是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。原创 2023-01-08 23:49:42 · 229 阅读 · 2 评论