大数据
文章平均质量分 53
飞鸟还巢
。
展开
-
【转】Redis数据备份与恢复
Redis里的数据都是保存在内存中,关闭服务器必须进行数据备份。1、Redis的数据持久化bgsave做镜像全量持久化,AOF做增量持久化。bgsave的原理:fork和cow(copyonwrite)fork是redis通过创建子进程来进行bgsave操作,子进程创建后,父子进程共享数据段,父进程继续提供读写服务,并不会阻塞,写脏的页面数据会逐渐和子进程分离开。bgsave是...转载 2019-03-28 10:42:59 · 206 阅读 · 0 评论 -
hive stage job等划分
1.通过explain可以清晰的看到stage划分。常见的是各个算子(join groupby orderby 等有shuffle)或者是一些filter where等。2.基于上面的1就可以划分出stage。但是有些stage并不会执行,或者说经过优化器后的filter where会在其他stage里进行。这样,有些stage就是空的stage。3.基于stage划分,如何确定job数量(总数就是stage数量)。主要是看哪些stage会执行。只有需要执行的stage才会提交yarn,生成具体的j转载 2021-03-19 16:47:56 · 872 阅读 · 1 评论 -
kafka要点归纳
发布 & 订阅 处理 存 储数据流,如消息传递系统高效并实时数据流安全地在分布式集群中复制存储kafka是用于构建实时数...转载 2019-02-28 21:18:22 · 145 阅读 · 0 评论 -
在Flink程序中加载Spring容器,并预处理原始数据为我们需要的业务实体类
import com.alibaba.fastjson.JSON;import com.alibaba.fastjson.TypeReference;import com.sitech.logengine.apmmi.commons.bo.UnifyDataBo;import com.sitech.logengine.commons.util.DateUtils;import com.sitech.logengine.commons.util.StringUtils;import com.sit.原创 2020-08-04 15:14:26 · 1062 阅读 · 0 评论 -
linux下执行.hbase文件 进行批处理记录(含snappy)
sudo docker cp xxxxx.hbase docker-container-id:/cd /hbase shell xxxxx.hbase原创 2020-07-01 16:09:20 · 342 阅读 · 0 评论 -
kafka数据积压语句查询记录
查看有哪些消费组./kafka-consumer-groups.sh --bootstrap-server 192.168.45.79:9092 --list查看某些消费组是否积压./kafka-consumer-groups.sh --bootstrap-server 192.168.45.79:9092 --describe --group ulmp-group-ink8slog5原创 2022-05-23 11:31:21 · 919 阅读 · 0 评论 -
启动Flink疑似出现检查点报错的问题记录
2021-01-21 16:51:55org.apache.flink.util.FlinkRuntimeException: Exceeded checkpoint tolerable failure threshold.at org.apache.flink.runtime.checkpoint.CheckpointFailureManager.handleJobLevelCheckpointException(CheckpointFailureManager.java:66)...原创 2021-01-21 16:58:00 · 831 阅读 · 1 评论 -
关于HIve的运行原理分析和日志解析清洗思路(二)
beeline命令,建立连接=============2021-03-04 15:29:53,842 WARN [HiveServer2-Handler-Pool: Thread-3953]: conf.HiveConf (HiveConf.java:initialize(2891)) - HiveConf of name hive.sentry.conf.url does not exist2021-03-04 15:29:53,842 WARN [HiveServer2-Handler-Poo..原创 2021-03-18 17:13:58 · 1327 阅读 · 0 评论 -
关于HIve的运行原理分析和日志解析清洗思路(一)
HIVE原理:Hive是一个SQL解析引擎,将SQL语句转译成MR Job,然后再Hadoop平台上运行;Hive中的表是纯逻辑表,就只是表的定义等,即表的元数据。本质就是Hadoop的目录文件,达到了元数据与数据存储分离的目的;Hive本身不存储数据,它完全依赖HDFS和MapReduceHive 在加载数据的过程中不会对数据进行任何处理,甚至不会对数据进行扫描,因此也没有对数据中的某些 Key 建立索引(hive不存储数据,因此没有索引)HQL----》转换成mapreduce------》提交任原创 2021-03-18 17:12:33 · 499 阅读 · 0 评论 -
Flink报错Could not perform checkpoint(kafka数据大小限制kafka.max.request.size配置扩大)
Could not perform checkpoint原创 2022-06-23 17:22:23 · 4263 阅读 · 0 评论 -
Flink因Kafka数据问题造成异常无法运行的解决思路
状况描述: Flink从Kafka中消费数据,发现fail了,直接重启之后,跑了5分钟还是fail,怀疑是数据问题。 再次重启之前,把消费者的group-id改了,新的group-id下重启Flink,跑了很久都没fail。分析: 旧的group-id记录了消费点,新的group-id获取了latest数据,因此可以继续正常运行。处理方案: 1、保证程序继续运行,用新的group-id继续跑,把数据读到原有的正式ES库; ...原创 2020-09-18 11:36:20 · 2619 阅读 · 2 评论 -
Flink日志固定输出路径,并按照分钟拆分日志文件
################################################################################# Licensed to the Apache Software Foundation (ASF) under one# or more contributor license agreements. See the NOTICE file# distributed with this work for additional info...原创 2020-08-07 16:52:15 · 1760 阅读 · 0 评论 -
批量插入数据到elasticsearch,包含重试,且处理异常不让flink异常宕停代码记录
/** * 批量插入数据到elasticsearch * @param bulkRequest * @param indexName * @param retries 失败时重试次数 * @return */ private boolean batchInsert(BulkRequest bulkRequest,String indexName,int retries){ long startTime = Sys...原创 2020-10-14 17:51:01 · 935 阅读 · 0 评论 -
什么是Zookeeper?
张大胖所在的公司这几年发展得相当不错,业务激增,人员也迅速扩展,转眼之间,张大胖已经成为公司的“资深”员工了,更重要的是,经过这些年的不懈努力,他终于坐上了架构师的宝座。但是大胖很快发现,这架构师真不是好当的,技术选型、架构设计,尤其是大家搞不定的技术难点,最终都得自己扛起来。沟通、说服、妥协、甚至争吵都是家常便饭,比自己之前单纯做开发的时候难多了。公司的IT系统早已经从单机转向了分布式,分布式系统带来了巨大的挑战。这周一刚上班,张大胖的邮箱里已经塞满了紧急邮件。1小梁的邮件小梁的邮件里转载 2021-07-22 16:02:15 · 96 阅读 · 0 评论 -
启动opensearch的报错记录
【问题1】xpack.ml.enabled报错。【问题2】启动失败,jdk报错。原创 2023-02-02 10:05:35 · 691 阅读 · 0 评论 -
Flink运行问题记录,无法入ES,Sink报错
2021-07-21 09:48:17java.lang.OutOfMemoryError: Direct buffer memory. The direct out-of-memory error has occurred. This can mean two things: either job(s) require(s) a larger size of JVM direct memory or there is a direct memory leak. The direct memory ca原创 2021-07-21 10:02:48 · 1683 阅读 · 2 评论 -
flink1.8的java项目升级到1.11后,on-yarn报错
启动时报错 java.lang.NoClassDefFoundError: org/apache/flink/api/common/eventtime/WatermarkStrategy调整了WatermarkStrategy: reqDataStream.assignTimestampsAndWatermarks(WatermarkStrategy.forBoundedOutOfOrderness(Duration.ofSeconds(3)));报错依旧,于是把pom.xml原创 2020-11-27 17:58:05 · 374 阅读 · 1 评论 -
Hadoop系列学习指南:(零)目录
一、Hadoop的来源与动机一、了解大数据时代背景二、了解大数据应用场景和案例三、传统大数据系统存在的问题四、认识Hadoop及其生态系统介绍二、Hadoop技术介绍一、了解分布式文件系统HDFS二、了解离线计算框架MapReduce三、了解资源管理系统YARN四、了解分布式协调服务ZooKeeper五、了解NoSQL数据库HBase六、了解数据仓库HI...原创 2019-04-01 11:35:29 · 108 阅读 · 0 评论