- 博客(91)
- 收藏
- 关注
原创 Error creating bean with name ‘esUtils‘ defined in file
esUtils在common服务中、启动media服务时候、报这个异常、后排查esUtils在启动时候发生异常引起的、在相关bean中加入try{}catch{}即可解决问题。
2023-08-20 22:47:47 1258
原创 Java项目初始化ES、MYSQL表结构及表数据
/获取所连接的数据库名称throw new BusinessException("连接数据库失败,数据库不存在");//当库中没有表、则执行sql脚本其中SystemMapper为@Mapper//获得当前数据库表的数量//===获得当前连接的数据库名称。
2023-08-13 14:16:08 873
原创 java中excel文件下载
String fileName = "分析-" + s + "月.xlsx";System.out.println("文件复制成功!//获得要下载的excel的模板、其中mb.xlsx是模板。//创建要生成的excel的路径。// 创建源文件和目标文件对象。//获得用户的当前工作目录。
2023-08-12 16:15:58 2454
原创 springboot 配置文件密码加密处理
二、在启动类中加上注解 @EnableEncryptableProperties。5、把CryptoUtil中生成的加密的用户名和密码放入配置文件中。3、在CryptoUtil中工具类中生成加密数据。4、在yml文件中添加。
2023-06-07 10:02:58 1239
原创 java项目部署常见问题
需要在配置文件中添加如下代码:然后把前端代码放置到dist 目录下即可2.1 修改pom文件中打包配置、此时install后lib包和项目分离2.2 修改启动脚本-增加-Dloader.path=lib。
2023-04-22 16:28:27 655
原创 Kafka面试题
一、Kafka数据怎么保障不丢失?二、kafka数据分区和消费者的关系?三、kafka内部如何保证顺序,结合外部组件如何保证消费者的顺序?四、kafka的消费者是pull(拉)还是push(推)模式,这种模式有什么好处?五、Kafka 的设计架构?
2022-09-04 23:00:31 1221
原创 Flink 基础概念
Flink是一个面向和的分布式数据计算引擎,能够基于同一个Flink运行,可以提供流处理和批处理两种类型的功能。在 Flink 的世界观中,一切都是由流组成的,离线数据是有界的流;实时数据是一个没有界限的流:这就是所谓的有界流和无界流。
2022-09-04 22:15:42 1478
原创 Spark(OOM问题,数据倾斜问题)
但是这会导致一个问题,例如在coalesce之前有100个文件,这也意味着能够有100个Task,现在调用coalesce(10),最后只产生10个文件,因为coalesce并不是shuffle操作,这意味着coalesce并不是按照我原本想的那样先执行100个Task,再将Task的执行结果合并成10个,而是从头到尾只有10个Task在执行,原本100个文件是分开执行的,现在每个Task同时一次读取10个文件,使用的内存是原来的10倍,这导致了OOM。
2022-09-04 00:32:39 583
原创 spark高频面试题
一、Spark 的运行流程?二、Spark 有哪些组件?三. Spark 中的 RDD 机制理解吗?四、RDD的操作分类五、如何区分 RDD 的宽窄依赖?为什么要设计宽窄依赖?六、RDD 持久化原理?七、Checkpoint 检查点机制?八、Checkpoint 和持久化机制的区别?九、RDD中reduceBykey与groupByKey哪个性能好,为什么十. Spark SQL 是如何将数据写到 Hive 表的?十一、Spark RDD转换成DataFrame的两种方式
2022-09-03 21:53:58 1669
原创 Hbase基本概念
一、Hbase介绍二、HBase 的特点是什么?三、Hbase的存储结构四、HBase 读写流程?五、HBase表的数据模型六. 热点现象(数据倾斜)怎么产生的,以及解决方法有哪些七、HBase的 rowkey 设计原则八、HBase的列簇设计九、 简述 HBase 中 compact 用途是什么,什么时候触发,分为哪两种,有什么区别,有哪些相关配置参数?
2022-09-03 12:17:49 5445 2
原创 Hive基本概念
一、Hive中排序的种类和适用场景二、Hive的几种存储方式三、Hive调优问题(包括数据倾斜和小文件等问题)四、数仓常见问题五、Hive表的概念
2022-09-03 00:34:19 265
原创 Hive调优及优化
一、优化SQL处理join数据倾斜二、聚合类group by操作,发生数据倾斜三、Hive 小文件问题及解决四、其他HiveSQL优化
2022-09-02 23:15:17 523
转载 hive面试题
什么是 Hive?Hive结构描述Hive的优势内部表、外部表、分区表、分桶表hive中 排序的种类和适用场景动态分区和静态分区的区别 + 使用场景hive 语句执行顺序Hive的几种存储方式列式存储的好处HQL转化为MapReduce的过程Hive 和关系型数据库的区别Hive和HBase的对比区别Hive 小文件问题及解决Hive调优及优化列裁剪和分区裁剪谓词下推聚合类group by操作,发生数据倾斜Join 优化设置合理的map reduce的task数量sort by代替order by。
2022-09-02 15:35:43 1408 1
原创 Hadoop高频面试题
一、HDFS集群架构(HDFS组织架构)二、HDFS数据写流程三、HDFS数据读流程四、MapTask和ReduceTask工作机制 (也可回答MapReduce工作原理)五、 小文件过多会有什么危害,如何避免六、hadoop(mapReduce)数据倾斜问题七、YARN集群的架构和工作原理八、YARN的任务提交流程是怎样的九、YARN的资源调度三种模型十、NameNode在启动的时候会做哪些操作十一、NameNode在启动的时候会做哪些操作十二、HDFS在读取文件的时候,如果其中一
2022-09-01 19:22:22 5411
原创 数据仓库中基本概念
数据仓库(Data Warehouse)是一个面向主题的、集成的、稳定的且随时间变化的数据集合,用于 支持管理人员的决策。
2022-08-29 10:48:45 2406 1
原创 Redis安装和基本操作
链接:https://pan.baidu.com/s/1N6azgTzzGu_GK9zkwzb-nQ?pwd=mh1u提取码:mh1u。
2022-08-25 23:22:41 281
原创 Flink中DataStream、DataSet和Table之间的互相转换
通过TableEnvironment ,可 以 把 DataStream 或 者 DataSet 注 册 为 Table , 这 样 就 可 以 使 用 Table API 和 SQL 查 询 了。通 过 TableEnvironment 也可以把Table对象转换为DataStream或者DataSet,这样就可以使用DataStream 或者DataSet中的相关API了。
2022-08-22 17:26:20 3067
原创 Flink核心API之Table API和SQL
Table API和SQL是一种关系型 API,用户可以像操作 Mysql 数据库表一样的操作数据。
2022-08-22 14:52:56 643
原创 Flink核心API之DataSet
DataSet:批式处理。DataSet API主要可以分为3块来分析:DataSource、Transformation、Sink。
2022-08-22 10:56:23 370
原创 Flink核心API之DataStream
两个流被connect之后,只是被放到了同一个流中,它们内部依然保持各自的数据和形式不发生任何变 化,两个流相互独立。connect方法会返回connectedStream,在connectedStream中需要使用CoMap、CoFlatMap这种函 数,类似于map和flatmap。split切分的流无法进行二次切分,并且split方法已经标记为过时了,官方不推荐使用,现在官方推荐 使用side output的方式实现。
2022-08-20 23:23:43 341
原创 Flink ON YARN
Flink ON YARN 模式就是使用客户端的方式,直接向Hadoop集群提交任务即可,不需要单独启动Flink进程。
2022-08-20 16:43:16 4111
原创 Flink 流程处理和批处理开发
流处理系统,其节点间数据传输的标准模型是:当一条数据被处理完成后,序列化到缓存中,然后立刻通过网络传输到下一个节点,由下一个节点继续处理。批处理系统,其节点间数据传输的标准模型是:当一条数据被处理完成后,序列化到缓存中,并不会立刻通过网络传输到下一个节点,当缓存写满,就持久化到本地硬盘上,当所有数据都被处理完成后,才开始将处理后的数据通过网络传输到下一个节点。Error:(18, 33) could not find implicit value for evidence parameter of ty
2022-08-20 00:40:19 1101 1
原创 Spark Streaming
Spark Streaming提供了一个高级抽象的流,即DStream(离散流)。DStream表示连续的数据流,内部结构是一系列的rdd组成,每个rdd都是一下段由时间分割开的数据集,最终都会转变成对底层RDD的操作。Spark Streaming将实时的数据分解成一系列很小的批处理任务。
2022-08-19 15:11:23 590
原创 Spark Transformation与Action
常见的action算子、常见的transformation算子、map 将RDD中的每个元素进行处理,一进一出filter 对RDD中每个元素进行判断,返回true则保留flatMap 与map类似,但是每个元素都可以返回一个或多个新元素groupByKey reduce:聚合计算collect:获取元素集合take(n):获取前n个元素count:获取元素总数saveAsTextFile:countByKey:统计相同的key出现多少次foreach:迭代遍历元素
2022-08-19 12:49:36 487
原创 Spark RDD转换成DataFrame的两种方式
spark官方提供了两种方法实现从RDD转换到DataFrame。第一种方法是利用反射机制来推断包含特定类型对象的Schema,这种方式适用于对已知的数据结构的RDD转换;第二种方法通过编程接口构造一个 Schema ,并将其应用在已知的RDD数据中。.........
2022-08-18 11:08:42 4791
原创 Scala函数式编程
Scala是一门既面向对象,又面向过程的语言。在Scala中,函数与类、对象地位是一样,所以说scala的面向过程其实就重在针对函数的编程 了,所以称之为函数式编程。
2022-08-16 17:41:33 1219
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人