- 博客(152)
- 收藏
- 关注
原创 Hive3.x版本调优总结
不过,某个特定的 job 可能包含众多的阶段,而这些阶段可能 并非完全互相依赖的,也就是说有些阶段是可以并行执行的,这样可能使得整个 job 的执行 时间缩短。不过,如果有更多的阶段可以并行执行,那么 job 可能就越快完成。mapred.reduce.tasks.speculative.execution (hadoop 里面的) hive.mapred.reduce.tasks.speculative.execution(hive 里面相同的参数,效果和 hadoop 里面的一样两个随便哪个都行)
2024-10-07 13:23:17 1314
原创 Presto&Kylin
测试结论:Impala性能稍领先于Presto,但是Presto在数据源支持上非常丰富,包括Hive、图数据库、传统关系型数据库、Redis等。Apache Kylin是一个开源的分布式分析引擎,提供Hadoop/Spark之上的SQL查询接口及多维分析(OLAP)能力以支持超大规模数据,最初由eBay Inc开发并贡献至开源社区。它能在亚秒内查询巨大的Hive表。
2024-07-27 14:09:38 1028
原创 Apache Doris
Apache Doris 由百度大数据部研发(之前叫百度 Palo,2018 年贡献到 Apache 社区后,更名为 Doris ),在百度内部,有超过 200 个产品线在使用,部署机器超过 1000 台,单一业务最大可达到上百 TB。Apache Doris 是一个现代化的 MPP(Massively Parallel Processing,即大规模并行处理)分析型数据库产品。仅需亚秒级响应时间即可获得查询结果,有效地支持实时数据分析。
2024-07-20 18:26:21 370
原创 HiveSQL一本通 - 案例实操
文章目录0.HiveSQL一本通使用说明6.综合案例练习之基础查询6.1 环境准备创建数据表数据准备加载数据6.2 简单查询练习1.查询姓名中带“山”的学生名单2.查询姓“王”老师的个数3.检索课程编号为“04”且分数小于60的学生的分数信息,结果按分数降序排列4.查询数学成绩不及格的学生信息和其对应的数学学科成绩,按照学号升序排序6.3 分组与汇总练习6.3.1 汇总练习1.查询编号为“02”的课程的总成绩6.3.2 分组练习1.查询各科成绩最高和最低的分,以如下的形式显示:课程号、最高分、最低分2.查询
2024-03-21 00:19:57 1262 1
原创 大数据之Flink优化
以计算每个 mid 出现的次数为例,keyby 之前,使用 flatMap 实现 LocalKeyby 功能//Checkpoint 时为了保证 Exactly Once,将 buffer 中的数据保存到该 ListState 中//本地 buffer,存放 local 端缓存的 mid 的 count 信息//缓存的数据量大小,即:缓存多少数据再向下游发送 private int batchSize;
2024-02-24 21:46:40 2036 2
原创 第 14 章 程序员常用算法
前面我们讲过了二分查找算法,是使用递归的方式,下面我们讲解二分查找算法的非递归方式二分查找法只适用于从有序的数列中进行查找(比如数字和字母等),将数列排序后再进行查找二分查找法的运行时间为对数时间 O(㏒₂n) ,即查找到需要的目标位置最多只需要㏒₂n 步,假设从[0,99]的队列(100 个数,即 n=100)中寻到目标数 30,则需要查找步数为㏒₂100 , 即最多需要查找 7 次( 2^6 < 100 < 2^7)分治法是一种很重要的算法。
2024-01-14 22:52:21 899
原创 第 13 章图
前面我们学了线性表和树线性表局限于一个直接前驱和一个直接后继的关系树也只能有一个直接前驱也就是父节点当我们需要表示多对多的关系时, 这里我们就用到了图。所谓图的遍历,即是对结点的访问。一个图有那么多个结点,如何遍历这些结点,需要特定策略,一般有两种访问策略: (1)深度优先遍历 (2)广度优先遍历。
2024-01-14 21:17:44 958
原创 第 12 章 多路查找树
B 树通过重新组织节点,降低树的高度,并且减少 i/o 读写次数来提升效率。如图 B 树通过重新组织节点, 降低了树的高度.文件系统及数据库系统的设计者利用了磁盘预读原理,将一个节点的大小设为等于一个页(页得大小通常为 4k),这样每个节点只需要一次 I/O 就可以完全载入将树的度M 设置为 1024,在 600 亿个元素中最多只需要 4 次 I/O 操作就可以读取到想要的元素, B 树(B+)广泛应用于文件存储系统以及数据库系统中B-tree 树即 B 树,B 即 Balanced,平衡的意思。
2024-01-14 21:03:27 865
原创 第 11 章 树结构实际应用
堆排序是利用堆这种数据结构而设计的一种排序算法,堆排序是一种选择排序,它的最坏,最好,平均时间复杂度均为 O(nlogn),它也是不稳定排序。堆是具有以下性质的完全二叉树:每个结点的值都大于或等于其左右孩子结点的值,称为大顶堆, 注意 : 没有要求结点的左孩子的值和右孩子的值的大小关系。每个结点的值都小于或等于其左右孩子结点的值,称为小顶堆大顶堆举例说明小顶堆举例说明一般升序采用大顶堆,降序采用小顶堆。
2024-01-14 20:57:58 1027
原创 第 10 章 树结构的基础部分
n 个结点的二叉链表中含有n+1 【公式 2n-(n-1)=n+1】 个空指针域。利用二叉链表中的空指针域,存放指向该结点在某种遍历次序下的前驱和后继结点的指针(这种附加的指针称为"线索")这种加上了线索的二叉链表称为线索链表,相应的二叉树称为线索二叉树(Threaded BinaryTree)。根据线索性质的不同,线索二叉树可分为前序线索二叉树、中序线索二叉树和后序线索二叉树三种一个结点的前一个结点,称为前驱结点一个结点的后一个结点,称为后继结点。
2024-01-14 20:18:10 824
原创 第 9 章 哈希表
散列表(Hash table,也叫哈希表),是根据关键码值(Key value)而直接进行访问的数据结构。也就是说,它通过把关键码值映射到表中一个位置来访问记录,以加快查找的速度。这个映射函数叫做散列函数,存放记录的数组叫做散列表。
2024-01-14 19:51:20 376
原创 第 8 章 查找算法
顺序(线性)查找二分查找/折半查找插值查找斐波那契查找黄金分割点是指把一条线段分割为两部分,使其中一部分与全长之比等于另一部分与这部分之比。取其前三位数字的近似值是 0.618。由于按此比例设计的造型十分美丽,因此称为黄金分割,也称为中外比。这是一个神奇的数字,会带来意向不大的效果。斐波那契数列 {1, 1, 2, 3, 5, 8, 13, 21, 34, 55 } 发现斐波那契数列的两个相邻数 的比例,无限接近 黄金分割值0.618。
2024-01-14 19:43:46 853
原创 第 7 章 排序算法
类似于时间复杂度的讨论,一个算法的空间复杂度(Space Complexity)定义为该算法所耗费的存储空间,它也是问题规模 n 的函数。空间复杂度(Space Complexity)是对一个算法在运行过程中临时占用存储空间大小的量度。有的算法需要占用的临时工作单元数与解决问题的规模 n 有关,它随着 n 的增大而增大,当 n 较大时,将占用较多的存储单元,例如快速排序和归并排序算法, 基数排序就属于这种情况在做算法分析时,主要讨论的是时间复杂度。从用户使用体验上看,更看重的程序执行的速度。
2024-01-14 18:08:39 891
原创 第 6 章 递归
八皇后问题,是一个古老而著名的问题,是回溯算法的典型案例。该问题是国际西洋棋棋手马克斯·贝瑟尔于 1848 年提出:在 8×8 格的国际象棋上摆放八个皇后,使其不能互相攻击,即:任意两个皇后都不能处于同一行、同一列或同一斜线上,问有多少种摆法(92)。
2024-01-14 17:47:42 786
原创 第 5 章 栈
栈的英文为(stack)栈是一个先入后出(FILO-First In Last Out)的有序列表。栈(stack)是限制线性表中元素的插入和删除只能在线性表的同一端进行的一种特殊线性表。允许插入和删除的一端,为变化的一端,称为栈顶(Top),另一端为固定的一端,称为栈底(Bottom)。根据栈的定义可知,最先放入栈中元素在栈底,最后放入的元素在栈顶,而删除元素刚好相反,最后放入的元素最先删除,最先放入的元素最后删除图解方式说明出栈(pop)和入栈(push)的概念。
2024-01-14 17:37:46 853
原创 第 4 章 链表
约瑟夫问题的示意图 Josephu 问题Josephu 问题为:设编号为 1,2,… n 的 n 个人围坐一圈,约定编号为 k(1
2024-01-14 17:07:33 980
原创 第 3 章 稀疏数组和队列
当一个数组中大部分元素为0,或者为同一个值的数组时,可以使用稀疏数组来保存该数组。记录数组一共有几行几列,有多少个不同的值把具有不同值的元素的行列及值记录在一个小规模的数组中,从而缩小程序的规模 稀疏数组举例说明队列是一个有序列表,可以用数组或是链表来实现。遵循先入先出的原则。即:先存入队列的数据,要先取出。后存入的要后取出示意图:(使用数组模拟队列示意图)3.2.3 数组模拟队列思路。
2024-01-14 16:43:42 853
原创 第 2 章 数据结构和算法概述
数据 data 结构(structure)是一门研究组织数据方式的学科,有了编程语言也就有了数据结构.学好数据结构可以编写出更加漂亮,更加有效率的代码。要学习好数据结构就要多多考虑如何将生活中遇到的问题,用程序去实现解决.程序 = 数据结构 + 算法数据结构是算法的基础, 换言之,想要学好算法,需要把数据结构学到位。
2024-01-14 16:12:34 499
原创 Java数据结构与算法
0.数据机构和算法架构图1.第一章 数据结构与算法介绍2.第二章 数据结构与算法概述3.第三章 稀疏数组和队列4.第四章 链表5.第五章 栈6.第六章 递归7.第七章 排序算法8.第八章 查找算法9.第九章 哈希表10.第十章 树结构基础部分11.第十一章 树结构实际应用12.第十二章 多路查找树13.第十三章 图14.第十四章 程序员常用的算法
2024-01-14 16:01:12 514
原创 投资组合之如何估值
市盈率 = 当前股票价格/每股收益=公司市值/公司净利润PE,其实也就是市价盈利比,也就是我们常说的回本年限。再来举个例子,让同学们更好理解,比如小黑开了一个超市,每年净利润为100万。并且超市管理得当,基本已经实现了流程化自动化运营。小黑想要出手卖掉的话,谁买也都可以直接做老板,年赚100万应该没有大问题。后来超市以1000万卖给了小白了,这一千万就是公司的市值,大家应该可以理解对吧?而年赚100万就是公司一年的净利润。所以市盈率等于多少?对滴市盈率=1000万/100万=10。
2023-10-14 18:35:07 939
原创 关于孩子的教育
普通家庭的普通孩子,学习不是唯一,首先家长投资自己的认知,其次培养孩子的综合战斗力。3.从小让孩子做家务,培养孩子责任心。2.给孩子培养一个乐观豁达的心态。6.从小培养孩子的与人交流的能力。1.从小给孩子培养一个体育爱好。人生这条路,选择比努力重要。4.读万卷书,不如行万里路。5.培养孩子解决问题的能力。独立思考和解决问题的能力。
2023-09-14 21:38:05 97
原创 SSH虚拟机免密操作
假设集群包含节点hadoop01、hadoop02、hadoop03。在hadoop01、hadoop02、hadoop03分别执行一下命令,即可实现3台机器之间免密。
2023-04-16 14:45:57 123
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人