enoughgood-CSDN博客

原创 Hive中生成连续的天,小时,分钟的HQL写法

---生成连续的天selectdate_add(start_date,pos) as dtfrom( select '2021-10-01' as start_date ,'2021-10-15' as end_date)tlateral view posexplode(split(repeat(',',datediff(end_date,start_date)),',')) tab as pos,val;---生成连续的小时selectfrom_unixtime(t1

2022-03-15 23:06:20 2800

原创大数据与数仓的学习重点

大数据学习重点

2022-02-14 10:11:38 1072 1

转载 2022最新大数据面试题之华为

1.spark内存管理2.hive分区表中，单值分区和范围分区的区别3.你们公司执行spark任务时，资源怎么设置的（需要直接说出来）4.介绍一下kafka水位线（其实就是leo和Hw）5.说几个指标，分别从什么数据层拿取了数据，需要直接说出来6.数仓采用了什么模型？为什么？7.hive分区表，单值分区和范围分区的区别8.spark任务切分，怎么判断有没有执行shuffle9.你们公司拉链表都有什么字段，拉链表出错怎么办10.列举几张表的同步策略11.flink Sql 了解吗...

2022-02-11 18:33:47 1112

转载 2022最新大数据面试题之米哈游

都是从各个地方搜集的实际面试真题.

2022-02-11 18:26:00 981

原创 Maven项目中引入Guava依赖

<dependency> <groupId>com.google.guava</groupId> <artifactId>guava</artifactId> <version>22.0&l...

2021-11-16 16:56:22 11460

原创 Hive实现获取指定月的第一天和最后一天

--指定月的第一天select trunc('2020-11-10','MM');2020-11-01--指定月的最后一天select last_day('2020-11-10');2020-11-30

2021-11-09 14:07:54 6613

原创在Hive中生成连续的分钟

---生成连续的分钟selectfrom_unixtime(t1.start_time+tab.pos*60) as continue_timefrom( select unix_timestamp('2020-07-27 00:00:00') as start_time ---生成连续分钟的开始时间 ,unix_timestamp('2020-07-27 00:15:00') as end_time ---生成连续分钟的结束时间)t1lateral view pos

2021-09-29 10:37:19 704

原创源码编译Kylin(详细版)

1. 在阿里云ECS上源码编译Kylin1.1 编译前准备在Kylin源码编译过程中有不少坑,报各种错.为了减少报错信息,需要提前对编译环境做一些准备.安装Maven(版本在3.5.3及以上)#1.解压安装包[root@linux122 software]# tar -zvxf apache-maven-3.6.3-bin.tar.gz -C /opt/servers#2.配置maven环境变量[root@linux122 software]# vim /etc/profile#MA

2021-09-29 10:34:42 1794

原创 jdk-11.0.9_linux-x64_bin.tar.gz免费下载

这是从Oracle官方下载的,已在生产使用.免费下载地址:https://pan.baidu.com/s/1gJw4jmauxoYsHrMtvVyJPw提取码：0k3e

2021-01-01 23:22:00 3154 2

原创 Linux下查看某个文件夹下的所有文件个数

ll | grep "^-" | wc -l

2020-11-18 16:06:07 581

原创在Hive中根据起止日期生成连续的日期

格式:with dates as( select date_add(start_date, a.pos) as d from (select posexplode(split(repeat("m", datediff(end_date, start_date)), "m"))) a)select * from dates;使用方式: 将start_date和end_date替换为自己的日期即可.案例:with dates as( select date_add("202

2020-11-18 16:00:51 3731 2

原创 Apache所有组件下载地址(包括官方地址和国内清华镜像)

点击链接

2020-10-31 17:49:15 3502

原创 CentOS7.x国内镜像下载地址

清华大学开源镜像

2020-10-30 14:36:04 4192

原创 DataGrip所有版本下载地址

下载地址

2020-10-27 18:33:02 7875

原创将Hive的执行引擎更换为Tez

将Hive的执行引擎更换为Tez1.1 集群环境CentOS7.xJDK1.8hadoop2.7.2hive2.3.7tez-0.9.2hiveserver2,metastore和tez都安装在hadoop102上1.2 操作步骤1.2.1 下载并解压Tez安装包下载地址https://mirrors.bfsu.edu.cn/apache/tez/0.9.2/解压#HiveServer2在哪个节点就解压到哪个节点[root@hadoop102 software]$ ta

2020-10-27 16:50:28 1934 2

原创原生Hadoop环境下安装Hue

1. 写在前面的话从事大数据开发已经有几年了,最近工作遇到瓶颈,时下火热的技术用的不多,想再提升提升.经过对方对比,详细了解了拉勾的课程体系,觉得是比较适合自己的,所以最后选择了拉勾教育大数据高薪训练营.现对学习内容以及结合自身的工作经验做一些总结.2. Hue的编译安装2.1 hue相关的网址Hue官方网站Hue官方用户手册官方安装文档HUE下载地址2.2 安装说明由于官方没有提供编译好的软件包,所以这里需要自己下载源码,安装依赖,编译安装.安装Hue的节点上最好没有安装过MyS

2020-09-06 18:27:31 699

原创 HiveSQL常用优化方法经验总结

1. 写在前面的话从事大数据开发已经有几年了,最近工作遇到瓶颈,时下火热的技术用的不多,想再提升提升.经过对方对比,详细了解了拉勾的课程体系,觉得是比较适合自己的,所以最后选择了拉勾教育大数据高薪训练营.现对学习内容以及结合自身的工作经验做一些总结,也算是开启自己的博客之路.2. Hive中解决数据倾斜的场景2.1 大表Join小表时的数据倾斜(map join) 在大表Join小表时,解决数据倾斜最好的方式是使用Map Join,避免Shuffle,从而也避免了数据倾斜. map join主要通

2020-09-06 17:43:19 1485 1

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

enoughgood的博客