- 博客(49)
- 资源 (1)
- 收藏
- 关注
原创 sqlserver存储过程执行sql为什么会比在数据库直接执行sql要快?
sqlserver存储过程执行sql为什么会比在数据库直接执行sql要快?要回答这个问题,首先我们得先理解SQLserver的存储过程是什么?
2024-05-13 16:33:14 865 1
原创 大数据SQL面试题每日一题系列:现有用户登录记录表,请查询出用户连续三天登录所有的数据记录
SQL面试题每日一题系列内容均来自于网络以及实际使用情况收集,如与各大厂面试题有雷同,纯属巧合。
2024-05-09 19:17:43 587 1
原创 SQL面试题每日一题之求解用户最长连续登录天数
SQL面试题每日一题系列内容均来自于网络以及实际使用情况收集,**如与各大厂面试题有雷同,纯属巧合。**
2024-05-08 19:25:53 769
原创 大数据面试SQL每日一题系列:最高峰同时在线主播人数。字节,快手等大厂高频面试题
大数据面试SQL每日一题系列:最高峰同时在线主播人数。字节,快手等大厂高频面试题
2024-05-06 20:28:46 895 4
原创 大数据怎么学?对大数据开发领域及岗位的详细解读,完整理解大数据开发领域技术体系
经常有小伙伴和我咨询大数据怎么学,我觉得有必要写一下关于大数据开发的具体方向,下次就不用苦哈哈的打字回复了
2024-04-30 17:37:23 1018 8
原创 什么是SQL 语句中相关子查询与非相关子查询
要理解相关子查询和非相关子查询,我们得首先理解什么是子查询,子查询是指在一个查询语句中嵌套的另一个查询语句。
2024-04-28 16:30:34 432
原创 SQL窗口分析函数使用详解系列三之偏移量类窗口函数
SQL窗口分析函数能够支持我们在更多的场景直接进行数据处理,进而更加深入和高效的进行数据分析。
2024-04-26 19:06:03 1060
原创 实时数仓构建:Flink+OLAP查询的一些实践与思考
以Flink为主的计算引擎配合OLAP查询分析引擎组合进而构建实时数仓,其技术方案的选择是我们在技术选型过程中最常见的问题之一。也是很多公司和业务支持过程中会实实在在遇到的问题
2024-04-15 20:43:19 1023
原创 hive窗口分析函数使用详解系列二之分组排序窗口函数
我们讨论面试中各大厂的SQL算法面试题,往往核心考点就在于窗口函数,所以掌握好了窗口函数,面对SQL算法面试往往事半功倍。
2024-04-13 22:19:13 826
原创 HiveSQL在使用聚合类函数的时候性能分析和优化详解
带聚合函数的SQL逻辑,我们可以根据其执行过程的不同,将其分成三大类来进行分析:仅在Reduce阶段聚合的SQL执行逻辑在Map和Reduce阶段都有聚合操作的SQL执行逻辑高级分组聚合的执行SQL逻辑
2023-06-21 11:30:59 508 4
原创 Hive常见时间日期函数的使用与问题整理
hive本身提供的时间函数已经很丰富了,基本上能满足我们所有的需求,一些特殊需求也可以通过增加一些数学逻辑实现出来。
2023-06-14 17:41:14 957 1
原创 Hive执行计划之只有map阶段SQL性能分析和解读
这种只含map的操作,如果文件大小控制在合适的情况下,都将只有本地操作,其执行非常高效,运行效率完全不输于在计算引擎Tez和Spark上运行。
2023-06-13 17:25:50 642
原创 Hive执行计划之什么是hiveSQL向量化模式及优化详解
Hive开启向量化模式也是hiveSQL优化方法中的一种,可以提升hive查询速率,也叫hive矢量化。
2023-06-09 20:26:37 1646
原创 Hive执行计划之一文读懂Hive执行计划
Hive的执行计划描述了一个hiveSQL语句的具体执行步骤,通过执行计划解读可以了解hiveSQL语句被解析器转换为相应程序语言的执行逻辑。通过执行逻辑可以知晓HiveSQL运行流程,进而对流程进行优化,实现更优的数据查询处理。同样,通过执行计划,还可以了解到哪些不一样的SQL逻辑其实是等价的,哪些看似一样的逻辑其实是执行代价完全不一样。如果说Hive优化是一堵技术路上的高墙,那么关于Hive执行计划,就是爬上这堵高墙的一架梯子。不同版本的Hive会采用不同的方式生成的执行计划。
2023-06-06 19:54:57 1586 1
原创 HiveSql调优系列之Hive严格模式,如何合理使用Hive严格模式
所谓Hive的严格模式,就是为了避免用户提交一些恶意SQL,消耗大量资源进而使得运行环境崩溃做出的一些安全性的限制。
2022-09-02 18:49:50 1361 2
原创 Hive存储格式之ORC File详解,什么是ORC File
ORC并不是一个单纯的列式存储格式,它也遵循了先水平分区,再垂直分区的理念,采用混合存储结构。除了Hive,目前也被Spark SQL,Flink,Presto,Impala等查询引擎支持。
2022-08-25 09:55:20 2920 2
原创 什么是谓词下推,看这一篇就够了
所谓谓词下推,**就是将尽可能多的判断更贴近数据源,以使查询时能跳过无关的数据**。用在SQL优化上来说,就是先过滤再做聚合等操作。
2022-08-16 07:45:00 2298 1
原创 Hive存储格式之RCFile详解,RCFile的过去现在和未来
我在整理Hive的存储格式和压缩格式,本来打算一篇发出来,结果其中一小节就有很多内容,于是打算写成Hive存储格式和压缩格式系列文章。
2022-08-14 20:13:44 929 2
原创 关于hive分区,你知道多少呢?
在Hive Select查询中一般会扫描整个表内容,会消耗很多时间做没必要的工作。有时候只需要扫描表中关心的一部分数据,因此建表时引入了partition概念。
2022-08-01 22:26:57 1943
原创 安装oozieUI界面无法访问问题
前言:我用的是Ambari管理集群其他集群管理工具安装oozie和手动编译安装oozie,关于oozie的UI界面无法访问的问题,大致和该方法类似.找到下面4步骤里的视图显示的目录,有一个ext-2.2软链指向的路径lrwxrwxrwx 1 oozie hadoop 41 Dec 12 2018 ext-2.2 -> /usr/hdp/3.0.1.0-187/oozi...
2020-01-16 21:06:49 539
原创 Oozie任务调度框架详解及使用简介(一)
个人最近一段时间一直在使用oozie,从刚开始的各种别扭到现在越来越觉得有意思的情况下,想整理一下关于oozie的认知,整理出来一个oozie系列,本来市面上关于oozie的资料就比较少,希望写完后能形成自己对oozie的独特理解和加强整体性的把握.
2020-01-14 23:30:55 1576
原创 Linux下Python3的安装
在不卸载Python2版本的同时使用Python3.*切勿删除Python2,不然会出问题参考这篇文章 手抖把Python2.7卸载了,导致了自己的yum不可用环境: centos7.4版本:python3.81.依赖包安装yum -y install zlib-devel bzip2-devel openssl-devel ncurses-devel sqlite-devel re...
2020-01-14 10:55:19 210 3
原创 手抖把Python2.7卸载了,导致了自己的yum不可用以及yum因python版本无法使用的问题
摘要:从标题就能看到我有多心如死灰了,简单介绍下我是如何自残的过程.①首先因为需要部署爬虫程序,然后安装Python3.②Python3系列和Python2系列版本不向下兼容,所以我就卸载了机器自带的Python2.7,删的干干净净.③然后我下载了Python3.8的包.④我开始使用yum命令安装Python3.8的相关依赖.⑤结果是发现yum不可用了,如下报错信息网上找的截图,大...
2020-01-14 10:26:37 1023 1
原创 0成本搭建个人技术博客和个人网站
摘要:首先送上我的个人博客先睹为快鲁边的个人博客说说搭建个人博客的初衷,前段时间发现自己在博客网站上的文章配图没了,感觉很不可思议,就萌生了这样的想法,但真正驱使我去行动起来的原因是,最近有一次我发表了一篇文章,结果还要审核,最后告诉我审核不通过,好吧,我换了一个博客发表,结果给我封号了,封号了,心情一时难以言表.于是愤而起身,决定亲自搭建一个博客.下面我们看正文.一.前言如果时间算是...
2020-01-12 00:11:26 372
原创 sqlserver数据库邮件告警系统设置(二)之详细设置
sqlserver数据库邮件告警系统设置sqlserver库的邮件告警分两种:第一种是以SQL的方式发送邮件告警,需要配置配置文件第二种是通过sqlserver代理来完成对作业调度以及性能问题的告警,也是需要配置配置文件一.以SQL的方式发送邮件告警EXEC msdb.dbo.sp_send_dbmail@profile_name = 'BigData', -...
2019-10-26 09:30:07 1403
原创 sqlserver数据库邮件告警系统设置(一)
在数据执行过程中需要对数据执行成功失败,以及相关错误信息进行监控,就需要用到告警信息配置sqlserver库的邮件告警分两种:第一种是以SQL的方式发送邮件告警,需要配置配置文件第二种是通过sqlserver代理来完成对作业调度以及性能问题的告警,也是需要配置配置文件一.以SQL的方式发送邮件告警EXEC msdb.dbo.sp_send_dbmail@profile_na...
2019-10-26 09:02:12 927
原创 数据表定时清理数据和日志设计原理
数据库数据和日志设置定时清理原理(适用于数据仓库,累积历史性数据库表)1.新建一个记录需要清理数据的表select * from mid.[dbo].t_clear_data_table--插入数据脚本INSERT INTO mid.[dbo].[t_clear_data_table] ([dbName] --数据库名称 ,[schName...
2019-10-26 08:55:25 851
原创 sqoop定时导入(全量+增量)sqlserver数据到HDFS
sqoop定时导入(全量+增量)sqlserver数据到HDFS增量导入采用创建sqoop job的形式,定时加载job即可创建jobbin/sqoop job \--create s_ods_ol_user_app \-- import \--connect 'jdbc:sqlserver://10.31.24.236:1433;database=ODS_DB_V3' \--usern...
2018-05-14 18:48:44 3564
原创 sqoop全量导入与增量导入sqlserver数据
sqoop全量导入与增量导入sqlserver数据1.全量导入正常导入即可2.增量导入sqoop支持两种增量导入到hive的模式, 一种是 append,即通过指定一个递增的列,(如果没有可以插入一列自增的数)比如: --incremental append --check-column id --last-value 0 另一种是可以根据时间戳,比如: --incremental lastmo...
2018-05-11 14:08:37 1765
原创 Sqoop导入sqlserver数据到HDFS和hive上的配置需求及问题
Sqoop导入sqlserver数据到HDFS和hive上的配置需求及问题 1.安装,下载安装包解压即可 2.在系统环境变量中设置HADOOP_HOME,指向安装目录; 3. 3.在系统环境变量中设置SQOOP_HOME与SQOOP_CONF_DIR;SQOOP_HOME = sqoop安装的根目录;SQOOP_CONF_DIR=$SQOOP_HOME/conf; 4.首先配置jdbc的SqlSe...
2018-05-10 17:13:57 1068
原创 Hadoop的shell操作命令收集
Hadoop常用的操作命令:- - ls使用方法:hadoop fs -ls [-h] [-R] <args>功能:显示文件、目录信息。示例:hadoop fs -ls /user/hadoop/file1- - mkdir使用方法:hadoop fs -mkdir [-p] <paths>功能:在 hdfs 上创建目录,-p 表示会创建路径中的各级父目录。示例:hadoo...
2018-03-11 11:43:28 429
原创 关于Static的思考
在java的关键字中,static不可或缺,在一定情况下的使用,可以提高程序的运行性能,优化程序的结构.static关键字的常见用法1.修饰成员变量 static最常用的功能就是修饰类的属性和方法,让他们成为类的成员属性和方法,我们通常将static修饰的成员成为类成员或者静态成员,这是相对于对象的属性和方法来说的. 构建一个类,定义成员变量, public class Pers...
2018-03-11 10:26:57 144
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人