李大寶-CSDN博客

原创 java面试题(背诵)

Redis Cluster 采用去中心化分布式架构，节点通过 Gossip 协议通信。数据按哈希槽（16384 个）分片，每个节点负责部分槽位。客户端直连节点，通过 MOVED 重定向访问正确节点。主从复制实现高可用，主节点故障时从节点经投票自动切换，支持在线扩缩容，槽位迁移保证数据均衡。控制反转（Inversion of Control，IOC）：将对象的创建和依赖关系的管理从代码内部转移到外部容器。

2025-07-07 09:11:47 576

原创 Error creating bean with name ‘esUtils‘ defined in file

esUtils在common服务中、启动media服务时候、报这个异常、后排查esUtils在启动时候发生异常引起的、在相关bean中加入try{}catch{}即可解决问题。

2023-08-20 22:47:47 1311

原创 Java项目初始化ES、MYSQL表结构及表数据

/获取所连接的数据库名称throw new BusinessException("连接数据库失败,数据库不存在");//当库中没有表、则执行sql脚本其中SystemMapper为@Mapper//获得当前数据库表的数量//===获得当前连接的数据库名称。

2023-08-13 14:16:08 1005

原创 java中excel文件下载

String fileName = "分析-" + s + "月.xlsx";System.out.println("文件复制成功！//获得要下载的excel的模板、其中mb.xlsx是模板。//创建要生成的excel的路径。// 创建源文件和目标文件对象。//获得用户的当前工作目录。

2023-08-12 16:15:58 2687

原创 springboot 配置文件密码加密处理

二、在启动类中加上注解 @EnableEncryptableProperties。5、把CryptoUtil中生成的加密的用户名和密码放入配置文件中。3、在CryptoUtil中工具类中生成加密数据。4、在yml文件中添加。

2023-06-07 10:02:58 1314

原创 hutool 常见功能总结

hutool

2023-04-28 10:21:59 1037

原创 java项目部署常见问题

需要在配置文件中添加如下代码：然后把前端代码放置到dist 目录下即可2.1 修改pom文件中打包配置、此时install后lib包和项目分离2.2 修改启动脚本-增加-Dloader.path=lib。

2023-04-22 16:28:27 756

原创 Elasticsearch桶聚合

Elasticsearch桶聚合，目的就是数据分组，先将数据按指定的条件分成多个组，然后对每一个组进行统计。

2023-03-18 15:20:36 349

原创 mybatis-plus常见语法

【代码】mybatis-plus常见语法。

2023-03-18 14:06:47 323

原创 kinaba中操作es语法

删除es中索引数据。

2023-03-16 10:38:10 535

原创项目启动脚本解析

【代码】项目启动脚本解析。

2022-11-04 14:50:12 558

原创 Kafka面试题

一、Kafka数据怎么保障不丢失？二、kafka数据分区和消费者的关系？三、kafka内部如何保证顺序，结合外部组件如何保证消费者的顺序？四、kafka的消费者是pull(拉)还是push(推)模式，这种模式有什么好处？五、Kafka 的设计架构？

2022-09-04 23:00:31 1266

原创 Flink 基础概念

Flink是一个面向和的分布式数据计算引擎，能够基于同一个Flink运行，可以提供流处理和批处理两种类型的功能。在 Flink 的世界观中，一切都是由流组成的，离线数据是有界的流；实时数据是一个没有界限的流：这就是所谓的有界流和无界流。

2022-09-04 22:15:42 1639

原创 Spark(OOM问题，数据倾斜问题)

但是这会导致一个问题，例如在coalesce之前有100个文件，这也意味着能够有100个Task，现在调用coalesce(10)，最后只产生10个文件，因为coalesce并不是shuffle操作，这意味着coalesce并不是按照我原本想的那样先执行100个Task，再将Task的执行结果合并成10个，而是从头到尾只有10个Task在执行，原本100个文件是分开执行的，现在每个Task同时一次读取10个文件，使用的内存是原来的10倍，这导致了OOM。

2022-09-04 00:32:39 670

原创 spark高频面试题

一、Spark 的运行流程？二、Spark 有哪些组件？三. Spark 中的 RDD 机制理解吗？四、RDD的操作分类五、如何区分 RDD 的宽窄依赖？为什么要设计宽窄依赖？六、RDD 持久化原理？七、Checkpoint 检查点机制？八、Checkpoint 和持久化机制的区别？九、RDD中reduceBykey与groupByKey哪个性能好，为什么十. Spark SQL 是如何将数据写到 Hive 表的？十一、Spark RDD转换成DataFrame的两种方式

2022-09-03 21:53:58 1755

原创 Hbase基本概念

一、Hbase介绍二、HBase 的特点是什么？三、Hbase的存储结构四、HBase 读写流程？五、HBase表的数据模型六. 热点现象（数据倾斜）怎么产生的，以及解决方法有哪些七、HBase的 rowkey 设计原则八、HBase的列簇设计九、简述 HBase 中 compact 用途是什么，什么时候触发，分为哪两种，有什么区别，有哪些相关配置参数？

2022-09-03 12:17:49 5546 2

原创 Hive基本概念

一、Hive中排序的种类和适用场景二、Hive的几种存储方式三、Hive调优问题（包括数据倾斜和小文件等问题）四、数仓常见问题五、Hive表的概念

2022-09-03 00:34:19 303

原创 Hive调优及优化

一、优化SQL处理join数据倾斜二、聚合类group by操作，发生数据倾斜三、Hive 小文件问题及解决四、其他HiveSQL优化

2022-09-02 23:15:17 654

转载 hive面试题

什么是 Hive？Hive结构描述Hive的优势内部表、外部表、分区表、分桶表hive中排序的种类和适用场景动态分区和静态分区的区别 + 使用场景hive 语句执行顺序Hive的几种存储方式列式存储的好处HQL转化为MapReduce的过程Hive 和关系型数据库的区别Hive和HBase的对比区别Hive 小文件问题及解决Hive调优及优化列裁剪和分区裁剪谓词下推聚合类group by操作，发生数据倾斜Join 优化设置合理的map reduce的task数量sort by代替order by。

2022-09-02 15:35:43 1647 1

原创 Hadoop高频面试题

一、HDFS集群架构（HDFS组织架构）二、HDFS数据写流程三、HDFS数据读流程四、MapTask和ReduceTask工作机制（也可回答MapReduce工作原理）五、小文件过多会有什么危害，如何避免六、hadoop（mapReduce）数据倾斜问题七、YARN集群的架构和工作原理八、YARN的任务提交流程是怎样的九、YARN的资源调度三种模型十、NameNode在启动的时候会做哪些操作十一、NameNode在启动的时候会做哪些操作十二、HDFS在读取文件的时候，如果其中一

2022-09-01 19:22:22 5594

原创数据仓库中基本概念

数据仓库(Data Warehouse)是一个面向主题的、集成的、稳定的且随时间变化的数据集合，用于支持管理人员的决策。

2022-08-29 10:48:45 2585 1

原创 Redis安装和基本操作

链接：https://pan.baidu.com/s/1N6azgTzzGu_GK9zkwzb-nQ?pwd=mh1u提取码：mh1u。

2022-08-25 23:22:41 308

原创通过java方式使用Kafka

基于Java API方式使用Kafka

2022-08-25 18:20:35 19387 2

原创 kafka安装部署和使用

一、kafka安装部署二、kafka基本操作三、Kafka中的生产者和消费者

2022-08-24 23:03:32 785

原创 Hbase和Hive整合

Hbase和Hive整合

2022-08-24 15:41:20 1231

原创 Hbase安装和使用

其中HBASE_MANAGES_ZK，如果使用内置的ZooKeeper，则用true,否则false。

2022-08-23 18:08:21 706

原创 zookeeper安装部署和操作

zookeeper安装部署和操作

2022-08-23 16:12:13 553

原创 Flink中DataStream、DataSet和Table之间的互相转换

通过TableEnvironment ，可以把 DataStream 或者 DataSet 注册为 Table ，这样就可以使用 Table API 和 SQL 查询了。通过 TableEnvironment 也可以把Table对象转换为DataStream或者DataSet，这样就可以使用DataStream 或者DataSet中的相关API了。

2022-08-22 17:26:20 3295

原创 Flink核心API之Table API和SQL

Table API和SQL是一种关系型 API，用户可以像操作 Mysql 数据库表一样的操作数据。

2022-08-22 14:52:56 737

原创 Flink核心API之DataSet

DataSet:批式处理。DataSet API主要可以分为3块来分析：DataSource、Transformation、Sink。

2022-08-22 10:56:23 414

原创 Flink核心API之DataStream

两个流被connect之后，只是被放到了同一个流中，它们内部依然保持各自的数据和形式不发生任何变化，两个流相互独立。connect方法会返回connectedStream，在connectedStream中需要使用CoMap、CoFlatMap这种函数，类似于map和flatmap。split切分的流无法进行二次切分，并且split方法已经标记为过时了，官方不推荐使用，现在官方推荐使用side output的方式实现。

2022-08-20 23:23:43 403

原创 Flink ON YARN

Flink ON YARN 模式就是使用客户端的方式，直接向Hadoop集群提交任务即可，不需要单独启动Flink进程。

2022-08-20 16:43:16 4237

原创 Flink 流程处理和批处理开发

流处理系统，其节点间数据传输的标准模型是：当一条数据被处理完成后，序列化到缓存中，然后立刻通过网络传输到下一个节点，由下一个节点继续处理。批处理系统，其节点间数据传输的标准模型是：当一条数据被处理完成后，序列化到缓存中，并不会立刻通过网络传输到下一个节点，当缓存写满，就持久化到本地硬盘上，当所有数据都被处理完成后，才开始将处理后的数据通过网络传输到下一个节点。Error:(18, 33) could not find implicit value for evidence parameter of ty

2022-08-20 00:40:19 1203 1

空空如也

空空如也