自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(188)
  • 收藏
  • 关注

原创 win11,浏览器不能上网,但可以ping通

如标题所述。在浏览器上,点击“运行Windos网络诊断”,提示“远程计算机或设备将不接受连接”

2024-02-21 13:07:47 442

原创 orc对hive复杂结构支持问题

orc与parquet对复杂嵌套字段类型支持

2023-02-20 11:57:47 465 1

原创 小表join顺序和广播问题

小表join顺序和广播问题

2022-11-07 19:03:25 1079

原创 spark广播导致的问题

spark广播导致的问题

2022-11-02 17:21:06 1600

原创 spark-sql: insert overwrite分区表问题

spark-sql: insert overwrite分区表问题

2022-11-02 16:39:06 4094

原创 Missing dependency ‘object scala.native in compiler mirror‘

编译seatunnel时,遇到一些问题:error: error while loading Object, Missing dependency 'object scala.native in compiler mirror', required by /modules/java.base/java/lang/Object.class

2022-10-13 17:36:59 1312

原创 kafka限流导致spark写异常

最近上线一个业务,大量数据从hive加工后,写入kaka。规模:200+任务spark任务并发数量:30每个spark任务vocres:20运行一段时间后,抛出异常。

2022-10-07 14:28:42 1158

原创 hudi更新失败

Caused by: org.apache.hudi.exception.HoodieException: (Part -) field not found in record

2022-09-03 22:46:20 1931

原创 spark写相同的HIVE表或者相同的HDFS路径时抛出异常

spark写相同的HIVE表或者相同的HDFS路径时抛出异常

2022-08-23 11:11:22 1314

原创 python写带ACL的kafka集群问题

python的第三方kafka包问题,导致写带ACL功能的kafka集群异常。

2022-08-11 18:28:26 940

原创 spark写带sasl认证的kafka

spark写带ACL的kafka集群问题

2022-08-11 17:06:01 1512 2

原创 mac上redis启动问题

问题描述在mac上启动redis后,没有错误提示,但连接不上(base) C02FRH0XMD6M:work haiping.lai$ brew services start redis==> Tapping homebrew/servicesCloning into '/usr/local/Homebrew/Library/Taps/homebrew/homebrew-services'...remote: Enumerating objects: 1863, done.remo.

2022-03-08 10:36:32 2045 1

原创 解决matplotlib中文显示异常问题

1. 执行命令,获取matplotlibrc文件路径import matplotlibprint(matplotlib.matplotlib_fname())如下/Users/haiping.lai/miniconda3/lib/python3.9/site-packages/matplotlib/mpl-data/matplotlibrc2. 修改matplotlibrcfont.family: sans-seriffont.sans-serif: SimHei,.

2022-01-10 12:36:22 3197 3

原创 启动jupyter

问题现象(base) [xxx@ip-10-169-49-131 sztoc_audiencemanager]$ jupyter notebook --no-browser --port=1234The Jupyter HTML Notebook.这将启动一个基于tornado的HTML笔记本服务器,它提供一个html5/javascript笔记本客户端。Traceback (most recent call last): File "/usr/share/miniconda2/env.

2022-01-06 10:12:20 256

原创 死信队列、重试队列、延迟队列、回退队列

1. 死信队列当一条消息初次消费失败,消息队列会自动进行消息重试;达到最大重试次数后,消息队列不会立刻将消息丢弃,而是将其发送到该消费者对应的特殊队列中,这种正常情况下无法被消费的消息称为死信消息(Dead-Letter Message),存储死信消息的特殊队列称为死信队列(Dead-Letter Queue)。2. 重试队列重试队列其实可以看成是一种回退队列,具体指消费端消费消息失败时,为防止消息无故丢失而重新将消息回滚到Broker中。与回退队列不同的是重试队列一般分成多个重试等级,每个重试

2021-12-31 11:45:08 2061

原创 Spark 3.0自适应查询执行框架(AQE)

1. AQE设计原理AQE 可以理解成是 Spark Catalyst 之上的一层,它可以在运行时修改 Spark plan。AQE 完全基于精确的运行时统计信息进行优化,引入了 Query Stages 的概念 ,并且以 Query Stage 为粒度,进行运行时的优化,其工作原理如下所示:Query Stage 是由 Shuffle 或 broadcast exchange 划分的,在运行下一个 Query Stage 之前,上一个 ...

2021-11-16 10:11:06 2369

原创 LSM Tree

1. 典型LSM Tree架构图2. LSM Tree特点LSM树的特点是利用顺序写来提高写性能,因为内存结构和磁盘文件的分层设计会降低读性能,但是通过牺牲小部分读性能换来提供写性能,使得LSM树成为非常流行的一种存储结构。与传统的基于 B 树的实现相比,LSM 提供高写入吞吐量的主要原因是每个写入请求实际上仅在内存中执行,而基于B树的更新在磁盘上完成,这可以触发对索引的更新,但非常昂贵。3. LSM组成部分3.1 WAL WAL用...

2021-11-16 09:11:56 951

原创 zookeeper提示包太大问题

现象描述beeline访问zookeeper报错beeline报错(base) -bash-4.2$ ./beeline -u 'jdbc:hive2://10.169.49.131:2181/default?spark.yarn.queue=szopam-test;username=leon'Connecting to jdbc:hive2://10.169.49.131:2181/default?spark.yarn.queue=szopam-test;username=leon21/1

2021-11-12 18:31:47 4464

原创 hive编译问题

问题1异常信息Failed to collect dependencies at net.shibboleth.tool:xmlsectool.jar:2.0.0解决方法从官网下载xmlsectool.jar包到本地:https://build.shibboleth.net/nexus/content/groups/public/net/shibboleth/tool/xmlsectool/2.0.0/​​​​​​​​​​​​​​​​​​​​​q然后执行手动安装mvn in.

2021-11-05 09:35:30 1169

原创 查看hive表对应的hdfs文件路径

1. 一般情形 一般情形,spark-sql执行show create table xxx.xxx命令,就可以看到hdfs路径:LOCATIONshow create table xxx.xxx;2. 特殊情形有些情况,比如spark用saveAsTable方法创建的表,一般情形不适合,查不到hive表对应的hdfs路径。spark-sql> show create table default.leon_hive_table;CREATE TA...

2021-10-21 15:46:25 12030

原创 数据库、数据仓库与数据湖

1 数据库 数据库包含关系型数据库存和非关系型数据库。我们通常所说的数据库指的是关系型数据库。关系数据库是指采用了关系模型来组织数据的数据库,其以行和列的形式存储数据。关系型数据库的主要用于联机事务处理OLTP(On-Line Transaction Processing)主要进行基本的、日常的事务处理,例如银行交易等场景。 主要特点:结构化程度高 独立性强 冗余度低2 数据仓库数据仓库 ,由数据仓库之父比尔·恩门(Bill Inmon)于1...

2021-09-23 08:52:50 1529

原创 flink并行度和cpu使用率

1 问题描述1.1 业务描述 最近上线一个任务,拓扑大概是这样:从几个kafka集群读取数据做简单处理加工,union成一个数据流 读取并广播配置信息 将前两者数据流connect后过滤一部分数据,并再加工处理 数据流根据三个类型的key进行keyby和窗口操作 最后将结果sink到kafka1.2 资源配置CPU核心数据:10核 单核内存:4g taskmanager.numberOfTaskSlots:4 全局并行度:401.3 问题现象...

2021-09-19 18:31:39 2525

原创 mysql的binlog

1mysql日志类型1.1 重做日志(redo log)作用:确保事务的持久性。防止在发生故障的时间点,尚有脏页未写入磁盘,在重启mysql服务的时候,根据redo log进行重做,从而达到事务的持久性这一特性。 内容:物理格式的日志,记录的是物理数据页面的修改的信息,其redo log是顺序写入redo log file的物理文件中去的。 产生:事务开始之后就产生redo log,redo log的落盘并不是随着事务的提交才写入的,而是在事务的执行过程中,便开始写入redo log文件中.

2021-09-18 23:37:15 334

原创 Spark SQL运行流程及性能优化:RBO和CBO

1Spark SQL运行流程1.1 Spark SQL核心——CatalystSpark SQL的核心是一个叫做Catalyst的查询编译器,它将用户程序中的SQL/Dataset/DataFrame经过一系列操作,最终转化为Spark系统中执行的RDD。1.2Catalyst组成部分Parser :用Antlr将SQL/Dataset/DataFrame转化成一棵未经解析的树,生成 Unresolved Logical Plan Analyzer:Analyzer...

2021-09-16 15:50:57 2047 1

原创 yarn相关常见知识点

1. YARN架构1.1 ResourceManager整个集群资源的主要协调者和管理者,负责给用户提交的所有应用程序分配资源。1.2 NodeManager每个节点的管理者,主要负责该节点内所有容器的生命周期管理,监视资源和跟踪节点健康。1.3 ApplicationMaster在用户提交一个应用程序时,yarn会启动一个轻量级的进程ApplicationMaster负责协调来自RM的资源,通过NM监视容器内资源的使用情况。...

2021-09-15 20:29:36 826

原创 hadoop四种集群模式

1Single Node Cluster伪分布式模式(单机模式)。将hadoop安装在一台机器上,通过进程来模拟各主机节点的协作和运行,其可靠性、稳定性都是非常差的,并且具备糟糕的性能效率,一般只是用来开发调试。2Full Distributed Cluster完全分布式集群模式。将hadoop部署在至少两台机子上,数据块副本的数量通常也设置为2以上。 特点:该模式的集群,无论规模多大,只拥有1台Namenode节点,且也是唯一Activ...

2021-09-15 09:38:13 1401

原创 HDFS优缺点及解决方案

1HDFS优点海量数据存储: HDFS可横向扩展,其存储的文件可以支持PB级别数据。 高容错性:节点丢失,系统依然可用,数据保存多个副本,副本丢失后自动恢复。 可构建在廉价(与小型机大型机比)的机器上,实现线性扩展(随着节点数量的增加,集群的存储能力,计算能力随之增加)。 大文件存储:HDFS采用数据块的方式存储数据,将一个大文件切分成多个小文件,分布存储。2 HDFS缺点HDFS有几个缺点:元数据的扩展性:NameNode是一个中央元数据服务节点,也是集群管理节点,文件系统的元数据以及.

2021-09-14 19:51:56 2209

原创 数仓建模和分层

目录1 数仓建模1.1 范式建模(关系型数据库)1.1.1 第一范式(1NF)1.1.2第二范式(2NF)1.1.3第三范式(3NF)1.1.4 范式建模优缺点1.2 ER实体建模(Entity-relationship model)1.2.1 ER 模型三个关键1.2.2 ER 模型约束关系1.2.3 ER模型实体类型父类与子类关系1.2.4ER模型构建流程1.2.5ER建模优缺点1.3维度建模(非关系型数据库)1.3.1 模型实现1....

2021-09-14 15:09:58 646

原创 布隆过滤器、计数布隆过滤器、布谷鸟过滤器

1标准布隆过滤器1.1 优点支持添加和查询 节省空间1.2 缺点不支持删除操作 布隆过滤器要采用多种哈希函数进行多次哈希2 计数布隆过滤器2.1 优点支持添加和删除 支持计数2.2 缺点内存消耗是标准布隆过滤器的3-4倍3 布谷鸟过滤器3.1 优点支持动态新增和删除元素 布谷鸟哈希表更加紧凑,可以更加节省空间,散列确保了高空间占用率 布隆过滤器要采用多种哈希函数进行多次哈希,而布谷鸟过滤器只需一次哈希,因此查询效率很高,提供了比标准布隆过滤器更高的查找性能.

2021-09-09 09:13:49 918

原创 flink checkpoint和kafka offset设置问题

1. 问题描述本地调试过程中发现,明明设置了kafka自动提交enable.auto.commit = true但flink任务启动后,看日志,有时还是enable.auto.commit = false kafka的enable.auto.commit时而为true时而为false,导致的现象是,每次重启flink测试任务,有时是从kafka最新消息开始消费(enable.auto.commit=true),有时是从更早之前消费(en...

2021-09-02 09:02:59 4115 2

原创 Java类型隐式转换问题

问题代码:@Data@Builder@ToString@NoArgsConstructor@AllArgsConstructorpublic class Rules implements Serializable { private Set<Integer> uidTypes; private Set<Integer> reportTypes;}Gson gson = new Gson();Rules rules = new Rules()

2021-08-28 18:22:32 135

原创 JMM中的可见性、原子性和有序性

Java内存模型即Java Memory Model,简称JMM。JMM定义了Java 虚拟机(JVM)在计算机内存(RAM)中的工作方式。JVM是整个计算机虚拟模型,所以JMM是隶属于JVM的。1 原子性由Java内存模型来直接保证的原子性操作包括read,load,assign.use,store,和write。 实现:synchronized lock+unlock concurrent包2 可见性可见性,是指线...

2021-08-20 14:31:13 279

原创 Lamda架构和Kappa构架对比

优点 缺点 Lambda 1、架构简单 2、结合离线批处理和实时流处理的优点 4、稳定且实时计算成本可控 5、离线数据易于订正 1、实时、离线数据很难保持一致结果 2、需要维护两套系统 Kappa 1、流批一体,维护一套代码 2、统一口径,无需离线实时数据合并 1、强依赖消息中间件缓存能力 2、实时数据处理时存在丢失数据可能...

2021-08-19 20:07:53 230

原创 Spark为什么比Mapreduce快

1、内存 vs 磁盘其实Spark和MapReduce的计算都发生在内存中,区别在于:MapReduce:通常需要将计算的中间结果写入磁盘,然后还要读取磁盘,从而导致了频繁的磁盘IO。 Spark:不需要每次将计算的中间结果写入磁盘,这得益于Spark的RDD(弹性分布式数据集,很强大)和DAG(有向无环图),其中DAG记录了job的stage以及在job执行过程中父RDD和子RDD之间的依赖关系。中间结果能够以RDD的形式存放在内存中,且能够从DAG中恢复,大大减少了磁盘IO。2、Spark

2021-08-19 17:25:56 234

原创 用户画像分类及验证

1. 用户画像分类基于日常业务,用户画像大概分三大类:基本信息画像、用户行为画像、用户分群画像。1.1 基本信息画像主要包含用户基本信息性别 年龄 地区 职业 学历 收入 有房 有车 ……1.2 用户行为画像消费行为 消费能力 消费内容 支付方式 消费时间偏好 …… 社交行为 加群行为 关注行为 互动行为 …… 1.3 用户分群画像此类画像基于统计方法(聚类)将同类型用户划为一类,根据不同业务需求,群体特征也不尽相同。风

2021-08-18 19:55:22 2347

原创 Mapreduce的排序

1. Mapreduce排序排序是MapReduce的灵魂,MapReduce在Map和Reduce的两个阶段当中,都在反复地执行排序。1.1 全局排序排序分为全局排序、部分排序、二次排序、辅助排序。全局排序,就是在一个MapReduce程序产生的输出文件中,所有的结果都是按照某个策略进行排序的,例如降序还是升序。MapReduce只能保证一个分区内的数据是key有序的,一个分区对应一个reduce,因此只有一个reduce就保证了数据全局有序,但是这样又不能用到Hadoop集群的优势。1.

2021-08-16 14:15:16 4605

原创 mysql事务的概念及隔离级别

1 事务概念MySQL 事务主要用于处理操作量大,复杂度高的数据。比如说,在人员管理系统中,你删除一个人员,你既需要删除人员的基本资料,也要删除和该人员相关的信息,如信箱,文章等等,这样,这些数据库操作语句就构成一个事务。1.1 事务特点tomicity(原子性):一个事务必须被视为一个不可分割的最小工作单元,整个事务中的所有操作要么全部提交成功,要么全部失败回滚,对于一个事务来说,不可能只执行其中的一部分操作 Consistency(一致性):数据库总是从一个一致性状态转换到...

2021-08-13 11:06:27 157

原创 redis和hbase比较

HBase和Redis的功能上比较相似,都是nosql类型数据库,但是读写性能、支持数据类型、数据大小、部署、在应用场景下,还是有明显差别。 redis hbase 数据大小 通常受内存限制 受内存限制 数据类型 KV、List、Set等丰富类型 只支持KV类型 读写性能 读快写快 读慢写快 数据可靠 Redis采用的是异步复制数据,在failover时可能会丢失数据 HBase采用WAL,先记录日志再写入数据,...

2021-08-12 11:39:22 2464

原创 flink广播变量太大问题

问题背景flink广播变量适用于解决活动配置、白名单等应用场景,根据活动配置或者白名单过滤数据后再做后续加工处理。广播出去的变量存在于每个节点的内存中,所以这个数据集不能太大。如果海量数据中,需要过滤出几百万甚至上亿的白名单用户数据,用广播变量广播大量用户uid,显然不合适。另外,实际的场景,白名单用户可能会增删,增加了要能检查出来,删除了不一定需要,宁可放过,不能错过。解决方案根据前面问题描述,布隆过滤器是一个很好的解决方案。标准布隆过滤器使用标准布隆过滤器,任务启动时候先将白名单

2021-08-06 21:53:38 1004

原创 clickhouse搭建集群问题总结

1. 问题描述自建clickhouse集群,遇到几个问题:建表不同步 插入数据不同步 查询数据不一致其实均与配置有关,其中数据不一致问题,纠结比较久,这里总结分享一下。2. 集群设计clickhouse集群配置:5节点,每个节点2个实例,总共5个分片,每个分片2副本。整理表格如下节点 实例1 实例2 livelink1 livelink1:9000 分片01-副本01 livelink1:9002 分片02-副

2021-07-29 16:08:00 2773

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除