自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(137)
  • 收藏
  • 关注

原创 Java,BigDecimal转换为int类型,数据精度丢失

如果 `BigDecimal` 的值超出了 `int` 类型能表示的范围,即整数的最大值 `Integer.MAX_VALUE` (2147483647)或最小值 `Integer.MIN_VALUE`(-2147483648),该方法会返回一个截断的结果。在你的情形中,`resultBigDecimal` 的值是 `-2.3785548E+19`,远远超过了 `int` 类型的最小负值。因此,转换到 `int` 时,发生了数值的溢出和环绕,从而导致返回的结果为 2147434496。

2024-04-24 14:30:43 278

原创 doris备份恢复bug

1.原表是3个副本,备份,恢复的时候指定1,恢复的建表语句显示是3,以后新插入的分区,副本是3,容易导致数据丢失。2.原表是1个副本,备份,恢复的时候指定1,恢复的建表语句显示是3,以后新插入的分区,副本是3。

2024-04-17 16:00:01 401 1

原创 doris导入Excel的xlsx格式数据

1.把xlsx格式另存为csv格式。2.上传到Linux。4.转换为utf-8。

2024-02-01 21:11:14 211

原创 doris建表报错:Failed to find 3 backends for policy

【代码】doris建表报错:Failed to find 3 backends for policy。

2024-01-31 18:19:21 307

原创 spark写入hive,字段不够长,会截断数据

spark写入hive,字段不够长,会截断数据。hive的字段都设置成 string 类型。

2024-01-31 15:29:27 151

原创 doris修改列类型

【代码】doris修改列类型。

2024-01-30 17:07:30 180

原创 doris批量创建分区,shell脚本

【代码】doris批量创建分区,shell脚本。

2024-01-30 16:44:21 156

原创 fastjson2序列化报错OutOfMemoryError

报错如下,这里用的是阿里的com.alibaba.fastjson2,该版限制了最大可以大小是64M,超过了就报错OutOfMemoryError。

2024-01-29 19:29:20 424

原创 解决FileNotFoundException: D:\decode.dll (另一个程序正在使用此文件,进程无法访问)问题

在静态代码块中加载decode.dll。

2024-01-18 16:46:17 338

原创 hive数据量不一致,表1是5条,导入到表2,变成了10条

hive的数据里面,有脏数据,比如某个字段中的数据有换行符、\n。如果hive设置的参数,换行符正好是\n,那么数据就会变多。

2024-01-17 16:40:51 360

原创 spark写hive的ORC表,count(*)没数据

使用spark向hive中插入数据,hive表是ORC表。解决办法:在后面加 limit 1 解决。然后查询数据,发现数据是164条。然后用SQL查询数量,结果是0。

2024-01-16 10:52:02 385

原创 MySQL自动更新时间字段

自动更新当前时间戳(当任何字段的值被更新时,该字段会自动更新为当前时间)添加一个自动更新的时间戳字段。

2024-01-10 19:10:15 426

原创 flink自动发现kafka新增分区

如果flink程序在运行中,kafka新增了分区,flink程序是消费不了的,需要重启flink程序,然后重置kafka的offset。

2024-01-10 19:00:05 450

原创 doris,DUPLICATE KEY类型不支持update

明细表只能支持insert/delete,不支持update语句。update需要通过delete+insert实现。

2024-01-10 14:14:51 454

原创 MySQL,原子性rename

【代码】MySQL,原子性rename。

2024-01-10 14:02:20 349

原创 doris批量创建分区

注意,以上"FROM(...) TO (...) INTERVAL ..."这种批量创建分区后面指定的INTERVAL还可以指定成YEAR、MONTH、WEEK、DAY、HOUR。

2024-01-10 13:59:59 426

原创 FlinkSQL设置sink的并行度

【代码】FlinkSQL设置sink的并行度。

2024-01-03 18:35:32 546

原创 spark报错:com.fasterxml.jackson.databind.JsonMappingException: Incompatible Jackson version: 2.9.0

解决办法。

2023-12-22 10:48:38 80

原创 Spark读取S3数据

参考:http://t.csdnimg.cn/9qRuN

2023-12-20 15:29:55 82

原创 flink1.12.4消费kafka 报错 The coordinator is not available

但是任务还在正常跑.

2023-12-08 09:43:01 633

原创 flink获取kafka的key value timestamp header

参考:

2023-12-03 13:57:57 197

原创 flink报错:akka.pattern.AskTimeoutException: is that the recipient actor didn‘t send a reply

在flink-conf.yaml中添加或修改:akka.ask.timeout: 100s web.timeout: 100000。如果负载或网络问题无法彻底缓解,需考虑调大 akka.ask.timeout 参数的值(默认只有 10 秒);Akka 超时导致,一般有两种原因:一是集群负载比较大或者网络比较拥塞,二是业务逻辑同步调用耗时的外部服务。另外,调用外部服务时尽量异步操作(Async I/O)

2023-11-23 14:51:22 354

原创 算法通关村第一关挑战——帮鱼皮打印算法学员名单

【代码】算法通关村第一关挑战——帮鱼皮打印算法学员名单。

2023-11-22 14:16:20 73

原创 算法通关村第一关——链表白银挑战笔记

这是一道经典的链表问题 : 输入两个无环的,找出它们的第一个公共结点,如果没有公共节点则返回空。屡试不爽的方法: 将和常用算法思想都想一遍,看看哪些能解决问题。常用的数据结构有数组、链表、队、栈、Hash、集合、树、堆。常用的算法思想有查找、排序、双指针、递归、迭代、分治、贪心、回溯和动态规划等等。首先想到的是蛮力法,类似于冒泡排序的方式,将第一个链表中的每一个结点依次与第二个链表的进行比较,当出现相等的结点指针时,即为相交结点。虽然简单,但是时间复杂度高,排除!

2023-11-20 16:05:05 103

原创 报错doris Doris BrokerLoad No source file in this table

查看hive的建表语句,找到location路径,复制到 DATA INFILE 即可。

2023-11-16 10:29:31 193

原创 MySQL on duplicate key update用法

如果数据库有值,不想覆盖数据库的值,可以采用以下写法。

2023-11-11 13:07:51 421

原创 算法通关村第一关——链表青铜挑战笔记

在给插入的新节点连线时不能先把目标节点的前个节点的指针指向新节点。(2)删除中间节点直接将要删除节点的上一个节点的指针指向删除节点的下一个节点即可。(2)在中间增加元素要注意的问题是 我们必须要遍历到目标节点的前一个节点停下,要先等目标节点的前个节点的指针的指针先连到目标节点才行。(1)删除首部节点直接将head指向旧头部节点改为指向新头部节点即可。(3)删除尾部节点直接将旧尾部节点的上一个节点的指针指向null即可。(3)在尾部增加元素直接将旧尾部节点指向新尾部节点就行了。

2023-11-03 08:51:04 204

原创 使用FlinkCatalog将kafka的数据写入hive

【代码】使用FlinkCatalog将kafka的数据写入hive。

2023-10-16 16:30:56 899 1

原创 完美世界大数据笔试题

参考:完美- sql题 - 简书

2023-08-26 12:27:11 239 1

原创 漫谈红黑树:红黑树的奇妙演化

参考:漫谈红黑树:红黑树的奇妙演化_Lion Long的博客-CSDN博客

2023-08-26 11:48:00 113

原创 hive可以删除单条数据吗

参考:hive只操作几条数据特别慢 hive可以删除单条数据吗_柳随风的技术博客_51CTO博客

2023-08-26 11:45:46 1024

原创 HiveSQL刷题

现有各直播间的用户访问记录表(live_events)如下,表中每行数据表达的信息为,一个用户何时进入了一个直播间,又在何时离开了该直播间。

2023-08-24 09:10:56 1198

原创 spark默认的executor是多少

在spark-default.conf文件中配置。

2023-08-19 15:52:56 123

原创 HDFS-块丢失和块损坏

去看看有没有副本,有副本的话,NN会自动同步数据,如果没有自动同步,重启HDFS。有可能是使用的hive的外部表,元数据没有,可以使用命令修复分区。

2023-08-17 14:07:43 423

原创 Flink面试常见问题(实战)

参考:Flink面试常见问题(实战) - 知乎

2023-08-16 20:41:17 79

原创 SQL之求股票的波峰和波谷--HiveSQL面试题33【今日头条】

参考:SQL之求股票的波峰和波谷--HiveSQL面试题33【今日头条】_sql 波峰波谷_莫叫石榴姐的博客-CSDN博客

2023-08-14 09:18:54 163

原创 Java 面试八股文

参考:2023年 Java 面试八股文(20w字)_json解析失败_leader_song的博客-CSDN博客

2023-08-12 22:33:23 1489

原创 实时指标-1日留存率

2个DWD层 登录→kafka 注册→kafka 1个DWS 弄2条流,从kafka读取数据 将昨日注册数据存到状态中,TTL为2天,存到map状态中,key为注册日期,value为set,存储注册的uid 将登录流和注册流进行连接 来一条登录数据,去注册状态中get昨天的日期,然后判断登录的uid在不在set中,如果在,说明昨天注册的,那么留存数加1 get昨天的日期,取set的size,就是昨日注册数 开一个10分钟的窗口,每10分钟将留存数和昨日注册数存到Doris的

2023-08-12 22:16:17 492

原创 flink优化

大状态调优:在我们的项目中,在做新老访客修复时,我们将每个mid的访问时间都存到了状态里面,在做回流用户数时,我们将每个用户的登录时间都存到了状态里面,导致了大状态问题,由于hashmap状态后端会将数据存储到内存,所以就会出现内存不够的情况。我们的解决办法就是将状态后端改成了rocksdb,并且开启增量检查点和本地恢复去进行调优。

2023-08-12 16:59:15 872

原创 flink-对齐和不对齐,精准一次和至少一次

精准一次怎么保证?可以设置为以下2个 对齐 当有一个barrier比较快时,输入缓冲区阻塞,当另外一个barrier到来时,才进行备份,所以数据不会重复。 优点:不会造成数据重复 缺点:会造成数据积压,OOM 不对齐 当有一个barrier到来时,直接将barrier置到最后,然后将所有缓冲区的数据和状态进行备份,然后将kafka提交,然后将慢的barrier也置到最后,将所有缓冲区的数据和状态进行备份,然后将kafka提交。 优点:加快了ck 缺点:由于备份了大

2023-08-12 15:23:44 1399

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除