自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(19)
  • 资源 (2)
  • 收藏
  • 关注

原创 Hive中生成连续的天,小时,分钟的HQL写法

---生成连续的天selectdate_add(start_date,pos) as dtfrom( select '2021-10-01' as start_date ,'2021-10-15' as end_date)tlateral view posexplode(split(repeat(',',datediff(end_date,start_date)),',')) tab as pos,val;---生成连续的小时selectfrom_unixtime(t1

2022-03-15 23:06:20 2468

原创 大数据与数仓的学习重点

大数据学习重点

2022-02-14 10:11:38 929 1

转载 2022最新大数据面试题之华为

1.spark内存管理2.hive分区表中,单值分区和范围分区的区别3.你们公司执行spark任务时,资源怎么设置的(需要直接说出来)4.介绍一下kafka水位线(其实就是leo和Hw)5.说几个指标,分别从什么数据层拿取了数据,需要直接说出来6.数仓采用了什么模型?为什么?7.hive分区表,单值分区和范围分区的区别8.spark任务切分,怎么判断有没有执行shuffle9.你们公司拉链表都有什么字段,拉链表出错怎么办10.列举几张表的同步策略11.flink Sql 了解吗...

2022-02-11 18:33:47 988

转载 2022最新大数据面试题之米哈游

都是从各个地方搜集的实际面试真题.

2022-02-11 18:26:00 783

原创 Maven项目中引入Guava依赖

<!-- https://mvnrepository.com/artifact/com.google.guava/guava --> <dependency> <groupId>com.google.guava</groupId> <artifactId>guava</artifactId> <version>22.0&l...

2021-11-16 16:56:22 9978

原创 Hive实现获取指定月的第一天和最后一天

--指定月的第一天select trunc('2020-11-10','MM');2020-11-01--指定月的最后一天select last_day('2020-11-10');2020-11-30

2021-11-09 14:07:54 6089

原创 在Hive中生成连续的分钟

---生成连续的分钟selectfrom_unixtime(t1.start_time+tab.pos*60) as continue_timefrom( select unix_timestamp('2020-07-27 00:00:00') as start_time ---生成连续分钟的开始时间 ,unix_timestamp('2020-07-27 00:15:00') as end_time ---生成连续分钟的结束时间)t1lateral view pos

2021-09-29 10:37:19 589

原创 源码编译Kylin(详细版)

1. 在阿里云ECS上源码编译Kylin1.1 编译前准备  在Kylin源码编译过程中有不少坑,报各种错.为了减少报错信息,需要提前对编译环境做一些准备.安装Maven(版本在3.5.3及以上)#1.解压安装包[root@linux122 software]# tar -zvxf apache-maven-3.6.3-bin.tar.gz -C /opt/servers#2.配置maven环境变量[root@linux122 software]# vim /etc/profile#MA

2021-09-29 10:34:42 1311

原创 jdk-11.0.9_linux-x64_bin.tar.gz免费下载

这是从Oracle官方下载的,已在生产使用.免费下载地址:https://pan.baidu.com/s/1gJw4jmauxoYsHrMtvVyJPw提取码:0k3e

2021-01-01 23:22:00 2713 2

原创 Linux下查看某个文件夹下的所有文件个数

ll | grep "^-" | wc -l

2020-11-18 16:06:07 507

原创 在Hive中根据起止日期生成连续的日期

格式:with dates as( select date_add(start_date, a.pos) as d from (select posexplode(split(repeat("m", datediff(end_date, start_date)), "m"))) a)select * from dates;使用方式: 将start_date和end_date替换为自己的日期即可.案例:with dates as( select date_add("202

2020-11-18 16:00:51 3402 2

原创 Apache所有组件下载地址(包括官方地址和国内清华镜像)

点击链接

2020-10-31 17:49:15 1476

原创 CentOS7.x国内镜像下载地址

清华大学开源镜像

2020-10-30 14:36:04 3939

原创 DataGrip所有版本下载地址

下载地址

2020-10-27 18:33:02 5435

原创 将Hive的执行引擎更换为Tez

将Hive的执行引擎更换为Tez1.1 集群环境CentOS7.xJDK1.8hadoop2.7.2hive2.3.7tez-0.9.2hiveserver2,metastore和tez都安装在hadoop102上1.2 操作步骤1.2.1 下载并解压Tez安装包下载地址https://mirrors.bfsu.edu.cn/apache/tez/0.9.2/解压#HiveServer2在哪个节点就解压到哪个节点[root@hadoop102 software]$ ta

2020-10-27 16:50:28 1677 2

原创 原生Hadoop环境下安装Hue

1. 写在前面的话  从事大数据开发已经有几年了,最近工作遇到瓶颈,时下火热的技术用的不多,想再提升提升.经过对方对比,详细了解了拉勾的课程体系,觉得是比较适合自己的,所以最后选择了拉勾教育大数据高薪训练营.现对学习内容以及结合自身的工作经验做一些总结.2. Hue的编译安装2.1 hue相关的网址Hue官方网站Hue官方用户手册官方安装文档HUE下载地址2.2 安装说明  由于官方没有提供编译好的软件包,所以这里需要自己下载源码,安装依赖,编译安装.安装Hue的节点上最好没有安装过MyS

2020-09-06 18:27:31 573

原创 HiveSQL常用优化方法经验总结

1. 写在前面的话从事大数据开发已经有几年了,最近工作遇到瓶颈,时下火热的技术用的不多,想再提升提升.经过对方对比,详细了解了拉勾的课程体系,觉得是比较适合自己的,所以最后选择了拉勾教育大数据高薪训练营.现对学习内容以及结合自身的工作经验做一些总结,也算是开启自己的博客之路.2. Hive中解决数据倾斜的场景2.1 大表Join小表时的数据倾斜(map join)  在大表Join小表时,解决数据倾斜最好的方式是使用Map Join,避免Shuffle,从而也避免了数据倾斜. map join主要通

2020-09-06 17:43:19 1256 1

原创 阿里云ECS服务器下安装MySQL

1. 写在前面的话  从事大数据开发已经有几年了,最近工作遇到瓶颈,时下火热的技术用的不多,想再提升提升.经过对方对比,详细了解了拉勾的课程体系,觉得是比较适合自己的,所以最后选择了拉勾教育大数据高薪训练营.现对学习内容以及结合自身的工作经验做一些总结,也算是开启自己的博客之路.2. 安装MySQL的前置条件2.1 安装环境说明  这里安装选用的Linux系统的版本为CentOS7.5,MySQL的版本为MySQL5.7.26,在阿里云ECS服务器上进行安装.2.2 删除CentOS7.x自带的M

2020-09-06 15:03:57 467

原创 原生Hadoop环境下Impala的安装和使用

1. Impala的基本概念1.1 什么是Impala  Impala就是使用SQL语句来操作Hive中的数据库和表,它可以提供低延迟的交互式的SQL查询功能.它与Hive共用表的元数据信息,所以需要使用Impala必须要先有Hive.1.2 Impala的优缺点以及使用场景优点:基于内存计算,不需要把中间结果写入磁盘,省掉了大量的I/O开销.无需将SQL转换为MapReduce任务,可以直接访问存储在HDFS,HBASE中的数据进行作业调度,可以提高查询速度.使用了支持数据本地化的I/O调

2020-09-06 14:17:48 3024 12

FS-LDM-建模过程与模型介绍(Teradata).pdf

金融行业非常经典的模型资料

2021-12-14

编译好的yanagishima-20.zip安装包

支持连接presto的可视化WEB UI界面组件.同时20版本是jdk8下的最后一个版本了.该该安装包也已测试可用.

2021-01-01

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除