黄土高坡上的独孤前辈
码龄7年
关注
提问 私信
  • 博客:219,903
    219,903
    总访问量
  • 152
    原创
  • 34,902
    排名
  • 543
    粉丝
  • 4
    铁粉

个人简介:010101010101010101010101010101

IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:湖北省
  • 加入CSDN时间: 2017-09-06
博客简介:

lihuazaizheli的博客

查看详细资料
  • 原力等级
    当前等级
    4
    当前总分
    770
    当月
    1
个人成就
  • 获得403次点赞
  • 内容获得51次评论
  • 获得805次收藏
  • 代码片获得1,554次分享
创作历程
  • 24篇
    2024年
  • 17篇
    2023年
  • 18篇
    2022年
  • 41篇
    2021年
  • 52篇
    2020年
成就勋章
TA的专栏
  • Hive/Kylin数据仓库
    25篇
  • Utils
    2篇
  • Mysql
    7篇
  • Flink
    13篇
  • Java
    8篇
  • 机器学习与深度学习
    17篇
  • 数据质量
  • Hadoop
    10篇
  • 读书笔记
    6篇
  • 财务自由之路
    24篇
  • maven
    2篇
  • git
    1篇
  • 职场之路
    1篇
  • Python
    6篇
  • PPT
    1篇
  • Linux
    9篇
  • flume
    5篇
  • JVM
    1篇
  • canal
  • Kafka
    3篇
  • Spark
    6篇
  • Sqoop
    1篇
  • Zookeeper
  • English doc
  • Phoenix/Hbase
创作活动更多

超级创作者激励计划

万元现金补贴,高额收益分成,专属VIP内容创作者流量扶持,等你加入!

去参加
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

Hive3.x版本调优总结

不过,某个特定的 job 可能包含众多的阶段,而这些阶段可能 并非完全互相依赖的,也就是说有些阶段是可以并行执行的,这样可能使得整个 job 的执行 时间缩短。不过,如果有更多的阶段可以并行执行,那么 job 可能就越快完成。mapred.reduce.tasks.speculative.execution (hadoop 里面的) hive.mapred.reduce.tasks.speculative.execution(hive 里面相同的参数,效果和 hadoop 里面的一样两个随便哪个都行)
原创
发布博客 2024.10.07 ·
1348 阅读 ·
10 点赞 ·
0 评论 ·
12 收藏

Presto&Kylin

发布资源 2024.07.27 ·
pdf

Presto&Kylin

测试结论:Impala性能稍领先于Presto,但是Presto在数据源支持上非常丰富,包括Hive、图数据库、传统关系型数据库、Redis等。Apache Kylin是一个开源的分布式分析引擎,提供Hadoop/Spark之上的SQL查询接口及多维分析(OLAP)能力以支持超大规模数据,最初由eBay Inc开发并贡献至开源社区。它能在亚秒内查询巨大的Hive表。
原创
发布博客 2024.07.27 ·
1043 阅读 ·
9 点赞 ·
0 评论 ·
14 收藏

Apache Doris

Apache Doris 由百度大数据部研发(之前叫百度 Palo,2018 年贡献到 Apache 社区后,更名为 Doris ),在百度内部,有超过 200 个产品线在使用,部署机器超过 1000 台,单一业务最大可达到上百 TB。Apache Doris 是一个现代化的 MPP(Massively Parallel Processing,即大规模并行处理)分析型数据库产品。仅需亚秒级响应时间即可获得查询结果,有效地支持实时数据分析。
原创
发布博客 2024.07.20 ·
396 阅读 ·
4 点赞 ·
0 评论 ·
5 收藏

Apache Doris

发布资源 2024.07.20 ·
pdf

Java学习路径图

JAVA架构师学习路径SpringBoot2学习视频SpringBoot2笔记SpringBoo2代码《谷粒商城》学习视频
原创
发布博客 2024.06.02 ·
459 阅读 ·
3 点赞 ·
0 评论 ·
0 收藏

HiveSQL一本通 - 案例实操

文章目录0.HiveSQL一本通使用说明6.综合案例练习之基础查询6.1 环境准备创建数据表数据准备加载数据6.2 简单查询练习1.查询姓名中带“山”的学生名单2.查询姓“王”老师的个数3.检索课程编号为“04”且分数小于60的学生的分数信息,结果按分数降序排列4.查询数学成绩不及格的学生信息和其对应的数学学科成绩,按照学号升序排序6.3 分组与汇总练习6.3.1 汇总练习1.查询编号为“02”的课程的总成绩6.3.2 分组练习1.查询各科成绩最高和最低的分,以如下的形式显示:课程号、最高分、最低分2.查询
原创
发布博客 2024.03.21 ·
1312 阅读 ·
27 点赞 ·
1 评论 ·
15 收藏

算法学习路径图

算法学习路径Java算法与数据结构
原创
发布博客 2024.03.02 ·
218 阅读 ·
2 点赞 ·
0 评论 ·
0 收藏

数仓建模理论核心要义

维度建模(Kimball架构)全链路数据治理-智能数据建模
原创
发布博客 2024.02.25 ·
336 阅读 ·
3 点赞 ·
0 评论 ·
4 收藏

大数据之Flink优化

以计算每个 mid 出现的次数为例,keyby 之前,使用 flatMap 实现 LocalKeyby 功能//Checkpoint 时为了保证 Exactly Once,将 buffer 中的数据保存到该 ListState 中//本地 buffer,存放 local 端缓存的 mid 的 count 信息//缓存的数据量大小,即:缓存多少数据再向下游发送 private int batchSize;
原创
发布博客 2024.02.24 ·
2135 阅读 ·
23 点赞 ·
2 评论 ·
29 收藏

Hive使用双重GroupBy解决数据倾斜问题

随机数:ceil(rand*10)
原创
发布博客 2024.02.18 ·
1070 阅读 ·
3 点赞 ·
1 评论 ·
10 收藏

第 14 章 程序员常用算法

前面我们讲过了二分查找算法,是使用递归的方式,下面我们讲解二分查找算法的非递归方式二分查找法只适用于从有序的数列中进行查找(比如数字和字母等),将数列排序后再进行查找二分查找法的运行时间为对数时间 O(㏒₂n) ,即查找到需要的目标位置最多只需要㏒₂n 步,假设从[0,99]的队列(100 个数,即 n=100)中寻到目标数 30,则需要查找步数为㏒₂100 , 即最多需要查找 7 次( 2^6 < 100 < 2^7)分治法是一种很重要的算法。
原创
发布博客 2024.01.14 ·
906 阅读 ·
24 点赞 ·
0 评论 ·
20 收藏

第 13 章图

前面我们学了线性表和树线性表局限于一个直接前驱和一个直接后继的关系树也只能有一个直接前驱也就是父节点当我们需要表示多对多的关系时, 这里我们就用到了图。所谓图的遍历,即是对结点的访问。一个图有那么多个结点,如何遍历这些结点,需要特定策略,一般有两种访问策略: (1)深度优先遍历 (2)广度优先遍历。
原创
发布博客 2024.01.14 ·
963 阅读 ·
21 点赞 ·
0 评论 ·
18 收藏

第 12 章 多路查找树

B 树通过重新组织节点,降低树的高度,并且减少 i/o 读写次数来提升效率。如图 B 树通过重新组织节点, 降低了树的高度.文件系统及数据库系统的设计者利用了磁盘预读原理,将一个节点的大小设为等于一个页(页得大小通常为 4k),这样每个节点只需要一次 I/O 就可以完全载入将树的度M 设置为 1024,在 600 亿个元素中最多只需要 4 次 I/O 操作就可以读取到想要的元素, B 树(B+)广泛应用于文件存储系统以及数据库系统中B-tree 树即 B 树,B 即 Balanced,平衡的意思。
原创
发布博客 2024.01.14 ·
870 阅读 ·
19 点赞 ·
0 评论 ·
18 收藏

第 11 章 树结构实际应用

堆排序是利用堆这种数据结构而设计的一种排序算法,堆排序是一种选择排序,它的最坏,最好,平均时间复杂度均为 O(nlogn),它也是不稳定排序。堆是具有以下性质的完全二叉树:每个结点的值都大于或等于其左右孩子结点的值,称为大顶堆, 注意 : 没有要求结点的左孩子的值和右孩子的值的大小关系。每个结点的值都小于或等于其左右孩子结点的值,称为小顶堆大顶堆举例说明小顶堆举例说明一般升序采用大顶堆,降序采用小顶堆。
原创
发布博客 2024.01.14 ·
1034 阅读 ·
22 点赞 ·
0 评论 ·
16 收藏

第 10 章 树结构的基础部分

n 个结点的二叉链表中含有n+1 【公式 2n-(n-1)=n+1】 个空指针域。利用二叉链表中的空指针域,存放指向该结点在某种遍历次序下的前驱和后继结点的指针(这种附加的指针称为"线索")这种加上了线索的二叉链表称为线索链表,相应的二叉树称为线索二叉树(Threaded BinaryTree)。根据线索性质的不同,线索二叉树可分为前序线索二叉树、中序线索二叉树和后序线索二叉树三种一个结点的前一个结点,称为前驱结点一个结点的后一个结点,称为后继结点。
原创
发布博客 2024.01.14 ·
831 阅读 ·
17 点赞 ·
0 评论 ·
22 收藏

第 9 章 哈希表

散列表(Hash table,也叫哈希表),是根据关键码值(Key value)而直接进行访问的数据结构。也就是说,它通过把关键码值映射到表中一个位置来访问记录,以加快查找的速度。这个映射函数叫做散列函数,存放记录的数组叫做散列表。
原创
发布博客 2024.01.14 ·
381 阅读 ·
7 点赞 ·
0 评论 ·
9 收藏

第 8 章 查找算法

顺序(线性)查找二分查找/折半查找插值查找斐波那契查找黄金分割点是指把一条线段分割为两部分,使其中一部分与全长之比等于另一部分与这部分之比。取其前三位数字的近似值是 0.618。由于按此比例设计的造型十分美丽,因此称为黄金分割,也称为中外比。这是一个神奇的数字,会带来意向不大的效果。斐波那契数列 {1, 1, 2, 3, 5, 8, 13, 21, 34, 55 } 发现斐波那契数列的两个相邻数 的比例,无限接近 黄金分割值0.618。
原创
发布博客 2024.01.14 ·
858 阅读 ·
13 点赞 ·
0 评论 ·
24 收藏

第 7 章 排序算法

类似于时间复杂度的讨论,一个算法的空间复杂度(Space Complexity)定义为该算法所耗费的存储空间,它也是问题规模 n 的函数。空间复杂度(Space Complexity)是对一个算法在运行过程中临时占用存储空间大小的量度。有的算法需要占用的临时工作单元数与解决问题的规模 n 有关,它随着 n 的增大而增大,当 n 较大时,将占用较多的存储单元,例如快速排序和归并排序算法, 基数排序就属于这种情况在做算法分析时,主要讨论的是时间复杂度。从用户使用体验上看,更看重的程序执行的速度。
原创
发布博客 2024.01.14 ·
900 阅读 ·
24 点赞 ·
0 评论 ·
26 收藏

第 6 章 递归

八皇后问题,是一个古老而著名的问题,是回溯算法的典型案例。该问题是国际西洋棋棋手马克斯·贝瑟尔于 1848 年提出:在 8×8 格的国际象棋上摆放八个皇后,使其不能互相攻击,即:任意两个皇后都不能处于同一行、同一列或同一斜线上,问有多少种摆法(92)。
原创
发布博客 2024.01.14 ·
792 阅读 ·
19 点赞 ·
0 评论 ·
16 收藏
加载更多