自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(15)
  • 收藏
  • 关注

原创 Kafka学习笔记三(生成数据发送与分区)

分区器相比会减少时延。即使在linger.ms为0并立即发送的情况下,也可以看到StickPartitioner会减少时延。发送一系列batches后,粘性分区将发生更改。随着时间的推移,记录应该均匀地分布在所有分区中。

2023-12-27 21:18:38 921 1

原创 Kafka学习笔记二(架构与数据存储)

Kafka的架构从大到小来讲的话,首先还得是从集群开始Kafka的Cluster由N个Broker组成,这些Broker就是一个个的Kafka Server。而作为一个集群,往往是存在主从主备之类的结构的,在Kafka中,就是借助了Zookeeper来协助选主,每个Broker在启动时都会尝试在Zookeeper上注册临时节点来竞选。第一个创建节点就被指定为Kafka集群的主,也就是"控制器"。

2023-12-27 08:45:26 377 1

原创 Kafka学习笔记一(消息队列)

众所周知,敲代码写需求的时候,最常见的就是给你加需求,或者给你改需求这种令人头疼的事。当系统B要接入你的系统A获取数据时,要改代码,系统C要获取数据时,也要改代码;如果后面还有其他系统要来获取数据,这样一直改吗?当然不,消息队列就可以解决这个问题。相比起传统模式那样系统间耦合度强的情况,MQ模式可以直接将你的消息写入消息队列,让需要获取消息的系统自己从消息队列中订阅,系统A不需要再做任何修改就可以实现业务了,轻松降低模块之间的耦合。

2023-12-25 21:08:08 323 1

原创 数仓学习笔记

DataWarehouse是一种思想。

2023-11-27 20:47:59 831 1

原创 Hive基础的一些操作

唯一的区别是,外部表此时如果使用 DROP 语句删除。将字符串按照正则表达式的规则拆分,返回 index 指定的字符,1 表示返回正则表达式中第一个()对应的结果,以此类推。如果 /yjx/user 目录不存在 Hive 会帮我们自动创建,我们只需要将 t_user 表所需的数据上传。t_user2 后,只会删除元数据,也就是说 t_user2 目录和 user.txt 数据并不会被删除。获取特定的值 YEAR()/MONTH()/DAY()/HOUR()/MINUTE()/SECOND()

2023-11-08 09:29:59 37 1

原创 Hive基本概念和架构介绍

是一个构建在Hadoop上的数据分析工具,它没有存储数据的能力,只有使用数据的能力,底层是由来提供数据存储,可以将结构化的数据文件映射成一张数据库表,并能够提供类似的查询功能。可以将它简单理解为一个将Hive SQL转换成MapReduce程序的工具,甚至可以说Hive就是一个MapReduce的客户端。使用Hive时,可以使用SQL语句进行交互,仅与MYSQL之类的数据库有少量的差别。它的元数据也正好可以存储在MYSQL数据库中;而它的数据则是存储在HDFS中。

2023-11-02 20:39:19 59

原创 窗口函数介绍

窗口函数是用于分析的一类函数,是一种在数据库中执行聚合、分析和排序操作的高级工具。与常规的聚合函数不同的是,开窗计算出来的结果,并不会影响原有的查询,只是把查询出来的结果拼接在后面。就像开了一个窗户,在不影响房屋原有结构的基础上能从自己想要的角度观察内部关系。SELECT XX函数() OVER (PARTITION BY 用于分组的列ORDER BY 用于排序的列 ROWS/RANGE BETWEEN 开始位置 AND 结束位置);那么这个语法的每一个关键字都是什么作用呢?SELECT。

2023-10-30 21:36:44 73 1

原创 Hadoop YARN集群的工作流程

第三步、接着 Client 计算分片,拷贝资源(作业的 Jar 文件,配置文件,计算所得输入分片,资源信息等)到 HDFS,最后用 submitApplication 函数 提交 Job 给 ResouceManager;第二步、ResouceManager 返回 JobID(即 Application ID)和保存数据资源(作业的 Jar 文件,配置文件,计算所得输入分片,资源信息等)的临 时目录(使用 JobID 命名的目录,hdfs://xxx/staging/xxx);

2023-10-26 21:00:34 51

原创 Linux文件系统的说明介绍(下)

还有swap这个分区,现在大部分人的电脑和系统上应该不会有出现这个东西,这个是以前内存紧张时期的时候盛行的。它是一个特殊的分区,在内存使用满的时候,可以将一部分数据写出到swap分区,临时充当内存使用。其实大部分基础级别的都讲过,剩下的也就一些零零碎碎的小知识点了。其他的暂时也想不到补充什么,之后想到了再加吧。但是呢,有一个包能让这个过程更加轻松简单。哦对,另外还有文件的压缩和解压。只需要简单地安装一下即可使用。比如说怎么查看文件目录大小。Linux自带的有一个。

2023-10-23 20:08:09 23

原创 摆烂休憩日

今日无事,就地摆烂,呜呼!

2023-10-20 21:13:50 40 1

原创 Linux文件系统的说明介绍(中)

rsync 和 scp 在文件夹均不存在时,执行时间相差不大,但是文件夹存在的情况下差异很大。原因是 scp 是复制:若目的地文件不存在则新建,若存在则覆盖。而 rsync 是同步,比较两边文件是否相同,相同的话,就什么都不做,若存在差异就直接更新。起到同步的作用时用 rsync 会快一些,起到复制作用时两者均可(目的地无文件)。

2023-10-19 21:27:19 34 1

原创 Linux文件系统的说明介绍(上)

bin是Binary的缩写, 这个目录存放着最经常使用的命令。这里存放的是启动Linux时使用的一些核心文件,包括一些连接文件以及镜像文件。dev是Device(设备)的缩写, 该目录下存放的是Linux的外部设备,在Linux中访问设备的方式和访问文件的方式是相同的。这个目录用来存放所有的系统管理所需要的配置文件和子目录。用户的主目录,在Linux中,每个用户都有一个自己的目录,一般该目录名是以用户的账号命名的。

2023-10-18 21:10:27 41 1

原创 Linux的初始网络设置与防火墙设置

继续对CentOS7进行一点点的初始配置。

2023-10-17 21:19:13 69

原创 Linux的安装

我这里是使用的VMware作为虚拟机,在Windows上基本可以直接傻瓜式安装安装完成后第一时间检查网络连接是否有 VMnet1 和 VMnet8 ,如果没有卸载虚拟机清理注册表并重新安装。

2023-10-16 21:21:05 45

原创 主要集合概述

对java主要常见的几种集合的概述

2023-08-02 09:52:29 33

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除