- 博客(65)
- 收藏
- 关注
原创 Hive基础概论
讲述了什么是Hive、为什么要用hive以及hive与Hadoop、MySQL之间的关系,为了更进一步的了解hive,简单的讲解了hive的组件与架构,同时也详细的讲解了hive的三种安装方式:内嵌模式、本地模式、远程模式,同时通过两种不同的方法尝试连接hive,进行一个初次体验。
2023-05-22 22:53:11 445
原创 数据仓库理论
我们每个人每时每刻都会产生数据,而这些数据虽然说仅有少部分是有用数据,但是我们可以根据这些小部分数据来进行分析获取一个人的行为特征,从而更加方便的进行一些商业活动或者做出决策,那么在这里我们就需要运用到数据仓库,本篇文章讲解了数据仓库的基础理论,在文章中也讲解了一些常见的概念,以便于后续对数仓的学习
2023-05-21 10:31:43 1758
原创 你好:Zookeeper
初次认识了Zookeeper,讲解了Zookeeper分布式集群搭建的过程,在搭建完成之后进行了Zookeeper shell API的学习,通过Shell API初次尝试Zookeeper,同时通过curator进行Java Api的尝试。此外Zookeeper也能够实现分布式锁,在这里进行了一个小小的demo,来展现通过zookeeper实现分布式锁。
2023-05-18 16:09:13 1285
原创 YARN 监控管理以资源管理
YARN是Hadoop经久不衰的关键技术,在上文中我们初步认识了YARN,知道了内部的机制,那么本篇文章讲述YARN如何进行资源管理和资源监控。在本篇文章中我们主要分为4个模块进行讲述,分别是:web UI服务、操作命令、资源调度与隔离、资源调度其四个部分进行讲述,便于能够熟练地掌握YARN的用法
2023-05-13 13:03:04 832
原创 YARN框架概述
YARN是一种新的hadoop资源管理器。YARN是一个通用资源管理系统的调度平台,可为上层应用提供统一的资源管理和调度。他的引入为集群在利用率、资源统一管理和数据共享等方面带来了巨大的好处。Hadoop能有今天的地位,YARN可以说功不可没,因为有了YARN,更多计算框架可以接入到HDFS中,而不单单是MapReduce,正是因为YARN的包容性,使得其他计算框架能够专注于计算性能的提升。本文介绍了YARN的演变、集群搭建、框架体系以及交互流程,能够初步认识YARN及其作用
2023-05-12 09:04:36 1818
原创 MapReduce源码解读-2
在上文中讲解了MapReduce的job源码和作业提交以及Map阶段的部分源码,那么在此篇文章中继续讲解Map阶段的分区(Partition)、溢写(Spill)、排序(Sort)、合并(Merge)、规约(combiner) 和Reduce阶段的细节:copy、merge 等问题,分析关键源码,掌握相关内容
2023-05-09 21:05:48 554
原创 MapReduce 源码分析-1
在了解MapReduce的使用之后,从源码角度分析MapReduce的读写流程以及相关的细节,从而进一步的了解MapReduce的逻辑,能够更加正确的使用MapReduce
2023-05-04 21:20:00 467
原创 Map Reduce高级篇:Join-Reduce
reduce side join ,顾名思义,就是在Reduce阶段进行关联操作,这是最容易想到和实现的join方式,因为通过shuffle过程就可以将相关的数据分到相同的分组中,这将为后面的join操作提供了便捷。reduce端join的最大问题就是整个join操作都是在reduce阶段完成的,但是通常情况下,reduce的并行度是极小的(默认是1),这就使得。两个文件读取后交给Reduce如何解决?在这里合并的是两个文本文件,两个文本一个是商品信息,一个是订单信息,二者通过商品编号进行关联,
2023-04-22 10:54:07 458 1
原创 MapReduce高级篇——全局计数器
在运行程序的时候,程序员很希望去了解程序的运行情况,MapReduce程序运行也是如此,此外MapReduce这种大数据运算,计算时间比较长,不提供一些信息的话,用户只能一边又一遍的调试来查找问题。为此MapReduce提供了计数器,在默认情况下,我们可以可以根据内置的计数器来了解大致情况,但是业务总不可能全都是相同的,有时候也需要自定义,MapReduce也为我们提供了相应的接口,本文主要讲解计数器该如何使用、自定义
2023-04-22 10:47:15 1119
原创 MySQL 的体系结构、引擎与索引
介绍了MyISAM。innodb、memory引擎之间的区别,以及MySQL的体系,此外还讲述了索引的优化、使用、失效原因
2023-02-23 22:18:14 424
原创 Redis高级:数据结构
讲述了Redis最底层的数据结构:intset、dict、ziplist、quicklist、skiplist以及RedisObject。同时讲述了Redis基本数据类型:String Zset Set Hash List的底层及原理
2023-02-16 16:22:02 488
原创 HDFS框架的基本原理
对HDFS的基本框架进行一个解读,讲述了HDFS的角色及其职责、HDFS WebUI的具体作用、HDFS的读写流程以及NameNode元数据管理
2022-11-11 11:51:08 445 1
原创 HDFS高可用配置及其高可用集群搭建
HDFS的HA(高可用)的背景、造成故障的原因以及解决方案,同时介绍了HA的解决方案-QJM 并详细记录了HA集群搭建的过程
2022-11-04 20:43:33 2621
原创 Hadoop数据迁移解决方案 上
讲述了Hadoop数据迁移的背景、考虑因素、以及拷贝工具。同时讲述了HDFS的优化方法: 短路本地读取、负载均衡器 (Balancer)、磁盘负载均衡器 (HDFS Disk Balancer) 以及纠删码技术
2022-10-16 17:25:38 1722 1
原创 HDFS的文件存储格式以及HDFS异构存储和存储策略
HDFS常见的文件存储格式。冷数据、热数据、暖数据、冻数据的异构存储。HDFS块存储类型的选择策略:HOT 、COLD、WARM、LAZY_PERSIST 以及相关操作的方法。
2022-10-09 17:42:32 5557
原创 高版本兼容swagger 一系列问题
解决了spring boot2.6.x以上版本集成swagger报错等一系列问题,同时结局了去除全局返回对象中null数据的两种方法
2022-05-15 11:01:59 716 2
原创 Lua入基本的数据类型与语法
Lua是一个小巧的脚本语言,能够与Nginx配套,能够使Nginx更加灵活,在这里对Lua的基础语法和数据类型进行一个简单的介绍
2022-04-27 20:19:38 1389
原创 Nginx下载安装及其基本配置
Nginx 的安装Nginx的版本类型:Nginx 开源版本的安装下载安装包对nginx进行安装:安装后可以去相应的目录下查看是否安装成功启动Nginx查看Nginx是否已经启动成功Nginx 启动关闭的指令:以服务的形式启动OneNote图片笔记Nginx的版本类型:Nginx 本身的开源版本nginxNginx 的商业版本NGINX Plus - 软件负载均衡器、网络服务器和缓存 | NGINX (nginx-cn.net)OpenrestyOpenResty® - 中文官方站Teng
2022-04-18 09:15:22 1065
原创 JVM 12 StringTable
String的特征String的基本特征String声明为final的,不可继承的实现了Serializable接口:表示字符串是支持序列化实现了COmparable接口,是可以比较大小的在JKD8以前内部定义了final char[] value 用于存储字符串数据jdk9时改成了byte[]+标识,如果是字符串,则仍然使用char作为底层,如果是字母类型,则用byte类型,字母类型使用byte能够比原来节省1半的空间1. String具有不可变性当字符串重新赋值时,就需要
2022-03-28 13:09:44 606
原创 词典中最长的字符串
字典中最长的字符串题目描述:给出一个字符串数组 words 组成的一本英语词典。返回 words 中最长的一个单词,该单词是由 words 词典中其他单词逐步添加一个字母组成。若其中有多个可行的答案,则返回答案中字典序最小的单词。若无答案,则返回空字符串。示例 1:输入:words = [“w”,“wo”,“wor”,“worl”, “world”]输出:“world”解释: 单词"world"可由"w", “wo”, “wor”, 和 "worl"逐步添加一个字母组成。示例 2:输入:w
2022-03-17 09:12:48 705
原创 JVM第二章
类加载子系统类加载器与类的加载过程作用:1. 类加载器子系统负责从文件系统或者网络中加载class文件,class问民间在文件开头有特定的文件标识2. ClassLoader只负责class文件的加载,至于它是否可以运行,则由Execution Engine决定3. 加载的类信息存放于一块成为方法区的内存空间,除了类的信息外,方法区中还会存放运行时常量池信息,可能还包括字符串字面量和数字常量(这部分常量信息时class文件中常量池部分的内存映射)类的加载过程加载 |验证 准备 解析 |(称之
2022-03-03 19:52:51 97
原创 JVM part2
类加载子系统类加载器与类的加载过程作用:1. 类加载器子系统负责从文件系统或者网络中加载class文件,class问民间在文件开头有特定的文件标识2. ClassLoader只负责class文件的加载,至于它是否可以运行,则由Execution Engine决定3. 加载的类信息存放于一块成为方法区的内存空间,除了类的信息外,方法区中还会存放运行时常量池信息,可能还包括字符串字面量和数字常量(这部分常量信息时class文件中常量池部分的内存映射)类的加载过程加载 |验证 准备 解析 |(称之
2022-02-26 22:25:46 205
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人