qq_43119740-CSDN博客

原创 2021-10-20

hive 拉链表开始日期、结束日期：一行数据状态的结束日期适用于:缓慢变化维

2021-10-20 17:33:25 72 1

文章目录hive企业级调优一、explain二、fetch三、本地模式四、表优化1、小表 join 大表（map join）2、大表 join 大表3、GROUP BY 数据倾斜4、COUNT(DISTINCT)5、避免笛卡尔积6、分区、分桶7、过滤非必要数据8、小文件合并9、合理设置map、reduce的任务数量10、任务阶段无依赖并行执行11、严格模式五、JVM重用六、引擎优化hive企业级调优hive调优学习一、explain1、explain2、explain extened二、fe

2021-10-20 17:02:34 119

原创获取周期第一天和最后一天

/上个月今天的当前时间/select date_sub(now(),interval 1 month)/上个月今天的当前时间（时间戳）/select UNIX_TIMESTAMP(date_sub(now(),interval 1 month))/上个月的第一天/select date_sub(date_sub(date_format(now(),’%y-%m-%d 00:00:00’)...

2019-01-23 21:57:36 211

转载 kafka转载

Kafka史上最详细原理总结KafkaKafka是最初由Linkedin公司开发，是一个分布式、支持分区的（partition）、多副本的（replica），基于zookeeper协调的分布式消息系统，它的最大的特性就是可以实时的处理大量数据以满足各种需求场景：比如基于hadoop的批处理系统、低延迟的实时系统、storm/Spark流式处理引擎，web/nginx日志、访问日志，消息服务等等...

2018-12-06 13:06:30 105

原创 join优化

join 优化（疑问1的效率为什么比2高：1用时115s，2用时170s）一般来说join优化有三种方法1，mapjoin；2小表join大表；3join非驱动表添加索引优化使用了mapjoin，小表join大表（给join表添加索引没有使用）1WITHinsAS (SELECTins_id, ins_code, ins_name, TO_DATE(formal_time, ‘y...

2018-11-29 19:33:57 626 1

转载 sql截取字符串

SQL截取字段字符串的方法set @str=‘WX15-53-H-53-99-15-335-23’;select @str as ‘字符串’select len(@str) as ‘字符长度’select charindex(’-’,@str,1) as ‘第一个逗号的索引值’select LEFT(@str,charindex(’-’,@str,1)-1) as ‘第一个值’sele...

2018-11-22 12:58:53 675

转载 sql的with as

一直以来很少在SQL中使用过with as 的用法，现在打算记录这条语句的使用方法。WITH AS短语，也叫做子查询部分（subquery factoring），是用来定义一个SQL片断，该SQL片断会被整个SQL语句所用到。这个语句算是公用表表达式（CTE）。比如with A as (select * from class)select *from A这个语句的意思就是，先执行se...

2018-11-21 13:14:13 981

转载 yarn学习

1）作业提交 client调用job.waitForCompletion方法，向整个集群提交MapReduce作业 (第1步) 。新的作业ID(应用ID)由资源管理器分配(第2步). 作业的client核实作业的输出, 计算输入的split,将作业的资源(包括Jar包, 配置文件, split信息)拷贝给HDFS(第3步). 最后, 通过调用资源管理器的submitApplica...

2018-09-04 20:19:10 81

转载 SparkSQL总体流程介绍

SparkSQL总体流程介绍在阐述Join实现之前，我们首先简单介绍SparkSQL的总体流程，一般地，我们有两种方式使用SparkSQL，一种是直接写sql语句，这个需要有元数据库支持，例如Hive等，另一种是通过Dataset/DataFrame编写Spark应用程序。如下图所示，sql语句被语法解析(SQL AST)成查询计划，或者我们通过Dataset/DataFrame提供的APIs...

2018-09-03 19:38:16 301

转载 spark调优

1、Spark调优背景目前Zeppelin已经上线一段时间，Spark作为底层SQL执行引擎，需要进行整体性能调优，来提高SQL查询效率。本文主要给出调优的结论，因为涉及参数很多，故没有很细粒度调优，但整体调优方向是可以得出的。环境：服务器600+，spark 2.0.2，Hadoop 2.6.02、调优结果调优随机选取线上9条SQL，表横轴是调优测试项目，测试在集群空闲情况下进行...

2018-09-03 19:19:35 90

转载大数据学习-用户画像

一、什么是用户画像用户画像是指根据用户的属性、用户偏好、生活习惯、用户行为等信息而抽象出来的标签化用户模型。通俗说就是给用户打标签，而标签是通过对用户信息分析而来的高度精炼的特征标识。通过打标签可以利用一些高度概括、容易理解的特征来描述用户，可以让人更容易理解用户，并且可以方便计算机处理。用户画像是对现实世界中用户的建模，用户画像应该包含目标，方式，组织，标准，验证这5个方面。...

2018-09-03 12:30:01 1614

qq_43119740的博客

原创 2021-10-20

原创 2021-10-20

原创获取周期第一天和最后一天

转载 kafka转载

原创 join优化

转载 sql截取字符串

转载 sql的with as

转载 yarn学习

转载 SparkSQL总体流程介绍

转载 spark调优

转载大数据学习-用户画像

空空如也

空空如也