自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(91)
  • 收藏
  • 关注

原创 Error creating bean with name ‘esUtils‘ defined in file

esUtils在common服务中、启动media服务时候、报这个异常、后排查esUtils在启动时候发生异常引起的、在相关bean中加入try{}catch{}即可解决问题。

2023-08-20 22:47:47 1258

原创 Java项目初始化ES、MYSQL表结构及表数据

/获取所连接的数据库名称throw new BusinessException("连接数据库失败,数据库不存在");//当库中没有表、则执行sql脚本其中SystemMapper为@Mapper//获得当前数据库表的数量//===获得当前连接的数据库名称。

2023-08-13 14:16:08 873

原创 java中excel文件下载

String fileName = "分析-" + s + "月.xlsx";System.out.println("文件复制成功!//获得要下载的excel的模板、其中mb.xlsx是模板。//创建要生成的excel的路径。// 创建源文件和目标文件对象。//获得用户的当前工作目录。

2023-08-12 16:15:58 2454

原创 springboot 配置文件密码加密处理

二、在启动类中加上注解 @EnableEncryptableProperties。5、把CryptoUtil中生成的加密的用户名和密码放入配置文件中。3、在CryptoUtil中工具类中生成加密数据。4、在yml文件中添加。

2023-06-07 10:02:58 1239

原创 hutool 常见功能总结

hutool

2023-04-28 10:21:59 971 1

原创 java项目部署常见问题

需要在配置文件中添加如下代码:然后把前端代码放置到dist 目录下即可2.1 修改pom文件中打包配置、此时install后lib包和项目分离2.2 修改启动脚本-增加-Dloader.path=lib。

2023-04-22 16:28:27 655

原创 Elasticsearch桶聚合

Elasticsearch桶聚合,目的就是数据分组,先将数据按指定的条件分成多个组,然后对每一个组进行统计。

2023-03-18 15:20:36 303

原创 mybatis-plus常见语法

【代码】mybatis-plus常见语法。

2023-03-18 14:06:47 270

原创 kinaba中操作es语法

删除es中索引数据。

2023-03-16 10:38:10 442

原创 项目启动脚本解析

【代码】项目启动脚本解析。

2022-11-04 14:50:12 519

原创 Kafka面试题

一、Kafka数据怎么保障不丢失?二、kafka数据分区和消费者的关系?三、kafka内部如何保证顺序,结合外部组件如何保证消费者的顺序?四、kafka的消费者是pull(拉)还是push(推)模式,这种模式有什么好处?五、Kafka 的设计架构?

2022-09-04 23:00:31 1221

原创 Flink 基础概念

Flink是一个面向和的分布式数据计算引擎,能够基于同一个Flink运行,可以提供流处理和批处理两种类型的功能。在 Flink 的世界观中,一切都是由流组成的,离线数据是有界的流;实时数据是一个没有界限的流:这就是所谓的有界流和无界流。

2022-09-04 22:15:42 1478

原创 Spark(OOM问题,数据倾斜问题)

但是这会导致一个问题,例如在coalesce之前有100个文件,这也意味着能够有100个Task,现在调用coalesce(10),最后只产生10个文件,因为coalesce并不是shuffle操作,这意味着coalesce并不是按照我原本想的那样先执行100个Task,再将Task的执行结果合并成10个,而是从头到尾只有10个Task在执行,原本100个文件是分开执行的,现在每个Task同时一次读取10个文件,使用的内存是原来的10倍,这导致了OOM。

2022-09-04 00:32:39 583

原创 spark高频面试题

一、Spark 的运行流程?二、Spark 有哪些组件?三. Spark 中的 RDD 机制理解吗?四、RDD的操作分类五、如何区分 RDD 的宽窄依赖?为什么要设计宽窄依赖?六、RDD 持久化原理?七、Checkpoint 检查点机制?八、Checkpoint 和持久化机制的区别?九、RDD中reduceBykey与groupByKey哪个性能好,为什么十. Spark SQL 是如何将数据写到 Hive 表的?十一、Spark RDD转换成DataFrame的两种方式

2022-09-03 21:53:58 1669

原创 Hbase基本概念

一、Hbase介绍二、HBase 的特点是什么?三、Hbase的存储结构四、HBase 读写流程?五、HBase表的数据模型六. 热点现象(数据倾斜)怎么产生的,以及解决方法有哪些七、HBase的 rowkey 设计原则八、HBase的列簇设计九、 简述 HBase 中 compact 用途是什么,什么时候触发,分为哪两种,有什么区别,有哪些相关配置参数?

2022-09-03 12:17:49 5445 2

原创 Hive基本概念

一、Hive中排序的种类和适用场景二、Hive的几种存储方式三、Hive调优问题(包括数据倾斜和小文件等问题)四、数仓常见问题五、Hive表的概念

2022-09-03 00:34:19 265

原创 Hive调优及优化

一、优化SQL处理join数据倾斜二、聚合类group by操作,发生数据倾斜三、Hive 小文件问题及解决四、其他HiveSQL优化

2022-09-02 23:15:17 523

转载 hive面试题

什么是 Hive?Hive结构描述Hive的优势内部表、外部表、分区表、分桶表hive中 排序的种类和适用场景动态分区和静态分区的区别 + 使用场景hive 语句执行顺序Hive的几种存储方式列式存储的好处HQL转化为MapReduce的过程Hive 和关系型数据库的区别Hive和HBase的对比区别Hive 小文件问题及解决Hive调优及优化列裁剪和分区裁剪谓词下推聚合类group by操作,发生数据倾斜Join 优化设置合理的map reduce的task数量sort by代替order by。

2022-09-02 15:35:43 1408 1

原创 Hadoop高频面试题

一、HDFS集群架构(HDFS组织架构)二、HDFS数据写流程三、HDFS数据读流程四、MapTask和ReduceTask工作机制 (也可回答MapReduce工作原理)五、 小文件过多会有什么危害,如何避免六、hadoop(mapReduce)数据倾斜问题七、YARN集群的架构和工作原理八、YARN的任务提交流程是怎样的九、YARN的资源调度三种模型十、NameNode在启动的时候会做哪些操作十一、NameNode在启动的时候会做哪些操作十二、HDFS在读取文件的时候,如果其中一

2022-09-01 19:22:22 5411

原创 数据仓库中基本概念

数据仓库(Data Warehouse)是一个面向主题的、集成的、稳定的且随时间变化的数据集合,用于 支持管理人员的决策。

2022-08-29 10:48:45 2406 1

原创 Redis安装和基本操作

链接:https://pan.baidu.com/s/1N6azgTzzGu_GK9zkwzb-nQ?pwd=mh1u提取码:mh1u。

2022-08-25 23:22:41 281

原创 通过java方式使用Kafka

基于Java API方式使用Kafka

2022-08-25 18:20:35 18817 1

原创 kafka安装部署和使用

一、kafka安装部署二、kafka基本操作三、Kafka中的生产者和消费者

2022-08-24 23:03:32 737

原创 Hbase和Hive整合

Hbase和Hive整合

2022-08-24 15:41:20 1153

原创 Hbase安装和使用

其中HBASE_MANAGES_ZK,如果使用内置的ZooKeeper,则用true,否则false。

2022-08-23 18:08:21 629

原创 zookeeper安装部署和操作

zookeeper安装部署和操作

2022-08-23 16:12:13 513

原创 Flink中DataStream、DataSet和Table之间的互相转换

通过TableEnvironment ,可 以 把 DataStream 或 者 DataSet 注 册 为 Table , 这 样 就 可 以 使 用 Table API 和 SQL 查 询 了。通 过 TableEnvironment 也可以把Table对象转换为DataStream或者DataSet,这样就可以使用DataStream 或者DataSet中的相关API了。

2022-08-22 17:26:20 3067

原创 Flink核心API之Table API和SQL

Table API和SQL是一种关系型 API,用户可以像操作 Mysql 数据库表一样的操作数据。

2022-08-22 14:52:56 643

原创 Flink核心API之DataSet

DataSet:批式处理。DataSet API主要可以分为3块来分析:DataSource、Transformation、Sink。

2022-08-22 10:56:23 370

原创 Flink核心API之DataStream

两个流被connect之后,只是被放到了同一个流中,它们内部依然保持各自的数据和形式不发生任何变 化,两个流相互独立。connect方法会返回connectedStream,在connectedStream中需要使用CoMap、CoFlatMap这种函 数,类似于map和flatmap。split切分的流无法进行二次切分,并且split方法已经标记为过时了,官方不推荐使用,现在官方推荐 使用side output的方式实现。

2022-08-20 23:23:43 341

原创 Flink ON YARN

Flink ON YARN 模式就是使用客户端的方式,直接向Hadoop集群提交任务即可,不需要单独启动Flink进程。

2022-08-20 16:43:16 4111

原创 Flink 流程处理和批处理开发

流处理系统,其节点间数据传输的标准模型是:当一条数据被处理完成后,序列化到缓存中,然后立刻通过网络传输到下一个节点,由下一个节点继续处理。批处理系统,其节点间数据传输的标准模型是:当一条数据被处理完成后,序列化到缓存中,并不会立刻通过网络传输到下一个节点,当缓存写满,就持久化到本地硬盘上,当所有数据都被处理完成后,才开始将处理后的数据通过网络传输到下一个节点。Error:(18, 33) could not find implicit value for evidence parameter of ty

2022-08-20 00:40:19 1101 1

原创 Spark Streaming

Spark Streaming提供了一个高级抽象的流,即DStream(离散流)。DStream表示连续的数据流,内部结构是一系列的rdd组成,每个rdd都是一下段由时间分割开的数据集,最终都会转变成对底层RDD的操作。Spark Streaming将实时的数据分解成一系列很小的批处理任务。

2022-08-19 15:11:23 590

原创 Spark Transformation与Action

常见的action算子、常见的transformation算子、map 将RDD中的每个元素进行处理,一进一出filter 对RDD中每个元素进行判断,返回true则保留flatMap 与map类似,但是每个元素都可以返回一个或多个新元素groupByKey reduce:聚合计算collect:获取元素集合take(n):获取前n个元素count:获取元素总数saveAsTextFile:countByKey:统计相同的key出现多少次foreach:迭代遍历元素

2022-08-19 12:49:36 487

原创 Spark RDD机制(持久化、依赖关系、checkpoint)

一、RDD持久化二、RDD的依赖关系三、checkpoint机制

2022-08-18 16:04:55 928

原创 Spark RDD转换成DataFrame的两种方式

spark官方提供了两种方法实现从RDD转换到DataFrame。第一种方法是利用反射机制来推断包含特定类型对象的Schema,这种方式适用于对已知的数据结构的RDD转换;第二种方法通过编程接口构造一个 Schema ,并将其应用在已知的RDD数据中。.........

2022-08-18 11:08:42 4791

原创 Spark SQL结构化数据文件处理

代码】Spark SQL结构化数据文件处理。

2022-08-17 23:16:40 1368

原创 Spark 运行架构与原理

一、spark工作流程二、spark的基本概念三、Spark实战

2022-08-17 21:53:14 2007 1

原创 Spark集群搭建和运行

Spark集群安装

2022-08-17 12:22:25 851

原创 Scala函数式编程

Scala是一门既面向对象,又面向过程的语言。在Scala中,函数与类、对象地位是一样,所以说scala的面向过程其实就重在针对函数的编程 了,所以称之为函数式编程。

2022-08-16 17:41:33 1219

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除