大大大大肉包-CSDN博客

原创数仓常用的域划分

订单事实表（订单ID、用户ID、商品ID、下单时间、金额、状态等）描述：记录用户在网站或 App 上的访问、点击、浏览等行为。内容元数据（文章、视频、帖子 ID、作者、标签、发布时间）商品基础信息（ID、名称、类目、品牌、价格、库存等）用户基本信息（ID、注册时间、性别、年龄、地域等）用户生命周期状态（注册、激活、流失、回流等）描述：记录用户购买、支付、退款等交易行为。营销活动信息（活动ID、类型、时间、预算）描述：聚焦收入、成本、利润等财务核算。描述：适用于媒体、社交、短视频等平台。

2025-12-11 20:02:06 292

原创布隆过滤器的原理及使用

布隆过滤器是一种空间效率极高的概率型数据结构，用于快速判断一个元素是否可能存在于一个集合中。它的核心特点是以极小的存储空间换取高效的查询性能，但存在一定的误判率（False Positive）。

2025-08-16 22:17:48 414

原创 linux中挂载磁盘和卸载

找到你想要挂载的磁盘。可以使用lsblk或fdisk -l命令来查看系统中所有的磁盘和分区信息。lsblk。

2025-08-02 19:46:17 308

原创私有化部署DeepSeek

复制如下链接在linux中执行命令 curl -fsSL https://ollama.com/install.sh | sh 进行下载安装将地址粘贴到输入框：https://github.com/ollama/ollama/releases/latest/download/ollama-linux-amd64.tgz。

2025-04-10 15:31:58 1135

原创 Docker部署Mysql8

7、创建一个账号-admin，用来进行远程访问。4、运行MySQL8.3.0服务。10、对mysql进行操作。6、登录mysql客户端。5、进入mysql实例。

2025-03-27 11:50:04 424

原创 Python搭建项目独立环境

有时候在安装依赖的过程中可能会遇到一些问题，例如与已有环境中的包产生版本冲突或依赖不兼容等。虚拟环境是一个独立的 Python 环境，安装的包和依赖与本地环境相互独立，不会相互影响。在虚拟环境中使用 pip install xxx 命令与本地环境中的使用方式基本相同，但需要首先激活虚拟环境，以便将要安装的 Python 包和依赖关系与虚拟环境相互独立，避免与本地环境中已有的包产生冲突。cmd进入windows terminal，进入项目路径下。在开发工具中指定你创建的虚拟环境。

2025-03-20 16:36:49 245

原创 docker常用命令

【代码】docker常用命令。

2025-03-06 16:04:06 339

原创 docker部署zookeeper伪集群

【代码】docker部署zookeeper伪集群。

2025-03-06 15:41:47 458

原创 docker快速安装带认证Es和Kinbana

docker cp es容器id:/usr/share/elasticsearch/config/ /usr/local/elasticsearch/3、创建虚拟网络：docker network create es-net。需要设置的账户密码比较多，所以这个过程有点漫长，耐心点设置就行了。2、查看下载的镜像：docker images；9、重新创建指定配置文件的es容器。7、复制es配置文件并修改认证。10、进入es容器并初始化密码。11、退出容器并重启es容器。8、停止并删除es容器。

2025-02-28 10:30:15 618

原创八股文系列Java锁

假设存在三个线程，一个数据线程一读取了数据A线程二读取了数据A线程二通过CAS比较，发现数据A是没错的，修改数据A为B线程三读取数据B线程三通过CAS比较，发现数据B是没错的，修改数据B为A线程一通过CAS比较，发现数据A是没错的，修改数据A为B这个过程中任何线程都没有做错什么，但是值被改变了，线程一却没有办法发现，其实这样得情况出现对结果是没有任何影响的，但是我们要做到规范，所以如何防止ABA问题呢？加标志位：搞一个自增的字段，操作一次就自增一次。

2025-02-12 10:44:30 536

原创 Java中线程池使用样例

【代码】Java中线程池使用样例。

2025-02-11 14:57:17 238

原创八股系列 Flink

数据已时间为单位分为一个个批次，通过RDD进行分布式计算，是面向流的处理框架，是真正的流式计算。

2024-06-14 16:52:11 1046

原创 Hadoop生态圈中的各个组件的介绍

当“Standby节点”看到edit log变化时，会将其应用到自己的命名空间。发生故障转移时，备用服务器将确保在将自身升级为活跃状态之前，已从JournalNode读取所有edit log内容。这样可确保在发生故障转移之前，命名空间状态已经完全同步。Standby NameNode只是作为Active NameNode的备份，保证在Active NameNode出现问题时能够快速的替代它。作业记录，比如用了多少个Map、多少个Reduce、作业提交时间、作业启动时间、作业完成时间等信息。

2024-06-13 16:54:01 1051

原创 Hadoop 3.X HA集群部署

NameNodeResourceManagerQuorumPeerMainJournalNodeDFSZKFailoverControllerJobHistoryServerNameNodeResourceManagerQuorumPeerMainJournalNodeDFSZKFailoverControllerJobHistoryServerQuorumPeerMainJournalNodeDataNodeNodeManagerDataNodeNodeManagerDataNodeNodeManager

2024-06-13 16:27:04 1467

原创八股文系列Spark

两者并没有大的差别。都是将 mapper（Spark 里是 ShuffleMapTask）的输出进行 partition，不同的 partition 送到不同的 reducer（Spark 里 reducer 可能是下一个 stage 里的 ShuffleMapTask，也可能是 ResultTask）。Reducer 以内存作缓冲区，边 shuffle 边 aggregate 数据，等到数据 aggregate 好以后进行 reduce（Spark 里可能是后续的一系列操作）。

2024-06-11 16:56:00 1516 1

原创八股文系列Redis

缓存穿透是指查询⼀个在缓存和数据库中都不存在的数据。由于缓存没有这个数据，所以每次查询都会“穿透缓存直接查询数据库，如果有⼤量此类查询，会给数据库带来极⼤的压⼒。

2024-06-06 09:58:52 1229 1

原创 Redis的哨兵模式

如果主服务器⽆法正常⼯作，哨兵模式可以开始⼀个故障转移过程，由⼀个从服务器升级为新的主服务器，并让其他从服务器改变他们的主服务器为新的主服务器。哨兵们会通过投票来决定主服务器是否已经下线，以及选择哪个从服务器升级为新的主服务器。的，每个哨兵节点都会订阅其它哨兵节点的信息，这样当主服务器出现故障时，哨兵节点可以及时进⾏⼴播，实现快速故障转移。切换成功之后，就会通过发布订阅模式，让各个哨兵把⾃⼰监控的从服务器切换主机，这个过程为。哨兵模式⾃动转移失败的主服务器到⼀个从服务器。Redis的哨兵模式（

2024-06-05 16:04:54 1224

原创 Redis的主从复制

负载均衡：在主从复制的基础之上，配合读写分离，主节点提供写服务，由从节点提供读服务，分担服务器负载，尤其是在读多写少场景下，可以⼤⼤提⾼Redis并发量。内置的⼀种数据冗余和备份⽅式，同时也是分发读查询负载的⼀种⽅法。故障恢复：主节点⼀旦出现问题，可以由从节点提供服务，避免出现程序不可⽤的情况，实现快速故障恢复。数据冗余：主从复制实现了数据的热备份，是持久化的⼀种数据冗余⽅式。⼀个主节点可以有多个从节点，但是⼀个从节点只能有⼀个主节点。命令的方式是临时的，每次重启都需要指定，配置文件是永久的。

2024-06-05 15:29:48 439

原创 Redis订阅发布

这个命令⽤于退订所有给定模式的频道。如果没有参数，那么客户端使⽤ PUNSUBSCRIBE。：指退订给定的频道。如果没有指定频道，则退订所有频道。：订阅给定的⼀个或多个频道的信息。当有新消息发布到某个频道。：将信息发送到指定的频道。：使⽤模式匹配订阅频道。

2024-06-05 15:01:09 233

原创 redis的持久化

rdb保存⽂件：dump.rdb默认保存在当前运⾏⽬录RDB总结当我们redis⼀旦出现问题，服务重启，服务关闭以后，再次启动时就会读取备份⽂件，恢复数据。为了避免出现备份被删除或者丢失的问题，⼀般情况下我们会定时把redis中的备份数据迁移到别处以防⽌数据丢失。还有⼀点要注意：设置时间不能太短，加⼊1秒就备份数据，会导致⼤量的磁盘IO，造成磁盘压⼒RDB。

2024-05-29 17:02:38 536

原创 RedisTemplate操作Redis

differenceAndStore：获取key与另一个otherKey所对应的集合之间的差值，并将结果存入指定的Key集合中。使用负值可以无限期等待。randomMembers：获取指定key的集合中指定个数的随机数据，list集合中可能存在重复的数据。distinctRandomMembers：获取指定key的集合中指定个数的随机数据（去重）remove：从存储在键中的列表中删除等于值的元素的第一个计数事件。get：获取key对应的map中，key为var2的map的对应的值。

2024-05-27 17:00:13 1244

原创 SQL实现直播间高峰人数及其持续时间

【代码】SQL实现直播间高峰人数及其持续时间。

2024-05-24 09:06:40 700

原创 redis的事务

在 Redis 中， WATCH 命令可以⽤来监视⼀个或多个 key，如果在事务执⾏之前这些key 的值发⽣了改变，那么事务将会被打断。7）在 A 客户端查看 str.lp 值，A 客户端执行的事务没有提交，因为 WATCH 的 str.lp 的值已经被修改了，所以放弃了事务。Redis事务会将命令按照顺序执⾏串⾏化操作，但是如果这些命令中有⼀个命令失败（⾮语法错误）了。命令之后的所有命令不会⽴即执⾏，⽽是缓存在服务器的⼀个事务队列中，然后当 EXEC。，执⾏命令的时候不允许其他命令插⼊，不许加塞。

2024-05-23 15:49:22 433

原创 redis的基本命令

Redis默认16个数据库，默认使⽤第0个select0切换数据库dbsize查看数据库⼤⼩flushall清除全部库数据flushdb清空当前库数据。

2024-05-22 16:59:06 439

原创 redis的基本介绍

Redis 是由C语⾔编写的⼀个，它不仅性能强劲，⽽且还具有以及为解决问题⽽⽣的独⼀⽆⼆的数据模型。Redis是完全开源免费的，遵守BSD协议，是⼀个⾼性能的key-value，并提供多种语⾔的API。Redis的特点性能极⾼– Redis能读的速度是110000次/s,写的速度是81000次/s。丰富的数据类型– Redis⽀持⼆进制的及Ordered Sets 数据类型操作。原⼦– Redis的所有操作都是原⼦性的，同时Redis。

2024-05-22 16:16:36 1035

原创 Zookeeper的watch 机制

我们可以把Watch理解成是注册在特定Znode上的。ZK的所有读操作都可以设置watch监视点: getData, getChildren, exists.的。监视有两种类型：数据监视点和子节点监视点。创建、删除或者设置znode都会触发这些监视点。exists,getData 可以设置数据监视点。getChildren 可以设置子节点变化。

2024-05-21 14:37:47 662

原创基于Zookeeper的分布式锁

在Java的多线程部分，我们知道如果在单个jvm进程中，多个线程之间同时访问一个资源，此时会有多线程的安全问题。为了解决这个线程安全的问题，我们可以使⽤“锁”来实现。但是，多个jvm进程之间如果同时访问一个资源呢？此时就需要一种更加高级的锁机制来处理种之间的资源安全问题，这就是分布式锁。

2024-05-21 11:02:48 1167

原创 zookeeper的Shell操作命令

作⽤创建⼀个节点，可以设置节点的初始内容选项-e:设置短暂类型节点-s:设置顺序节点示例create /test 创建持久化节点create /test2 "content message" 创建带初始化内容的持久化节点create -e /test3 "content message" 创建带初始化内容的临时节点create -e -s /test "content message" 创建带初始化内容的顺序临时节点。

2024-05-17 16:16:24 509

原创 zookeeper的内部数据模型

zk通过两种形式的持久化，在恢复时先恢复快照文件的中的数据导内存中，在利用日志文件中的数据做增量恢复，这样恢复的速度更快。如果该节点为临时节点,ephemeralOwner值表示与该节点绑定的sessionid. 如果该节点不是临时节点,ephemeralOwner值为0。zk把执行的命令以日志的形式保存在dataLogDir指定的路径中的二进制文件（如果没有指定dataLogDir,则按照dataDir指定的路径）对应节点与⼦节点(或者⼦节点)的修改的事务ID,与孙⼦节点⽆关。节点最近⼀次更新的时间。

2024-05-17 15:46:33 1088

原创 ES中分配分配问题排查

悬空索引磁盘中存在，而集群状态中不存在的索引称为 dangling index，例如从别的集群拷贝了一个索引的数据目录到当前集群，Elasticsearch 会将这个索引加载到集群中，因此会涉及到为 dangling index 分配分片的过程。由于 create index api 创建索引导致，索引创建过程中，把索引的全部分片分配完毕需要一个过程，在全部分片分配完毕之前，该索引会处于短暂的 RED 或 YELLOW 状态。这个命令只会展示出一条无法分配索引的分片的信息，包括无法分配的理由。

2024-05-15 16:39:59 1292

原创配置数据写入es的时间

这样，在数据写es时候，就会生成字段date，数据写入时间。3、在索引的setting里设置默认pipeline。2、检查pipeline是否设置成功。

2024-02-21 16:45:57 830

原创 flink写入es的参数解析

在发送批量动作前，BulkProcessor先缓存，再刷新。缓存刷新的间隔，支持基于Action数量、基于Action大小、基于时间间隔3种策略。不论Action个数或Action大小如何设置，到刷新间隔了，就会刷新缓冲，发起Bulk请求。延迟重试策略: 默认启用指数级间隔重试策略,初始等待50ms,8次重试。如需自定义延迟重试策略，可通过以下参数配置。: 延迟重试类型，CONSTANT(固定间隔)或EXPONENTIAL(指数级间隔)。每个Bulk请求，最大缓冲的Action大小。: 延迟重试是否启用。

2024-02-04 16:41:30 1602

原创 Flink中的时间语义和TTL

事件时间是数据生成的时间，是数据流中每个元素或者每个事件自带的时间属性，一般是事件发生的时间，在实际项目中作为前端的一个属性嵌入。在理想情况下，数据应当按照事件时间顺序到达集群节点，但是由于从产生一条数据到数据抵达集群有过多的中间步骤，一个较早发生的事件可能较晚到达，使用事件时间意味着会产生数据乱序。

2024-01-30 09:33:12 1341

原创 Kafka配置类参数设置

Kafka的客户端发送数据到服务器，不是来一条就发一条，而是经过缓冲的，也就是说，通过KafkaProducer发送出去的消息都是先进入到客户端本地的内存缓冲里，然后把很多消息收集成一个一个的Batch，再发送到Broker上去的，这样性能才可能高。理论上来说，提升batch.size的大小，可以允许更多的数据缓冲在里面，那么一次Request发送出去的数据量就更多了，这样吞吐量可能会有所提升。但是batch.size也不能过大，要是数据老是缓冲在Batch里迟迟不发送出去，那么发送消息的延迟就会很高。

2023-05-11 15:27:34 973

空空如也

空空如也