自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(15)
  • 收藏
  • 关注

原创 spark on hive问题记录--持续更新

解决方法:规避解决。修改ORC的默认分割策略为:hive.exec.orc.split.strategy=BI进行解决。原因:是由于HaddopRDD生成过程中partitions是会拿参数mapreduce.job.maps或mapred.map.tasks(20)和spark默认分区数(2)做最大值比较,所以导致默认为20。解决方法:通过在启动 Spark-sql 的时候加上 --driver-java-options “-Xss10m” 选项解决这个问题。解决方法:修改该参数就可以将task降下来。

2023-11-16 17:08:43 112 1

原创 Doris介绍

Apache Doris是一个现代化的MPP分析型数据库产品。仅需亚秒级响应时间即可获得查询结果,有效地支持实时数据分析。Apache Doris的分布式架构非常简洁,易于运维,并且可以支持10PB以上的超大数据集。Apache Doris可以满足多种数据分析需求,例如固定历史报表,实时数据分析,交互式数据分析和探索式数据分析等。令您的数据分析工作更加简单高效!

2023-09-08 21:53:18 202 1

原创 Presto学习之路 -- 01.整体介绍

Presto是一个分布式SQL查询引擎,用于查询分布在一个或多个不同数据源中的大数据集。完整安装包括一个Coordinator和多个Worker。由客户端提交查询,从Presto命令行CLI提交到Coordinator。Coordinator进行解析,分析并执行查询计划,然后分发处理队列到Worker。Presto是完全基于内存的分布式大数据查询引擎,所有查询和计算都在内存中执行。Presto的输入是SQL语句;输出是具体的SQL执行结果。Presto可以对接不同的数据源,例如MySQL、Hive等。

2023-09-08 11:11:50 115 1

原创 Druid 系统深入详解

Druid 是一个开源的,分布式的,列存储的,适用于实时数据分析的存储系统,能够快速聚合、灵活过滤、毫秒级查询、和低延迟数据导入。

2023-09-08 11:00:15 362 1

原创 Hbase简介

HBase基于HDFS来存储数据,但是他存储的数据都是经过自己优化索引后的数据,所以他对数据的存储是非常高效的,比HDFS直接存储文件的性能要高很多,可以作为整个大数据的存储基石。由于HBase对于数据的索引和存储都是在列簇级别进行区分的,所以,通常在使用时,建议一个列簇下的所有列都有大致相同的数据结构和数据大小,这样可以提高HBase管理数据的效率。当一个数据有多个版本时,HBase会保证只有最后一个版本的cell数据是可以查询的,而至于其他的版本,会由HBase提供版本回收机制,在某个时间进行删除。

2023-09-08 10:37:11 118 1

原创 Flume: 数据采集机制

无论数据来自什么企业,或是多大量级,通过部署Flume,可以确保数据都安全、及 时地到达大数据平台,用户可以将精力集中在如何洞悉数据上。Flume的定义Flume由Cloudera公司开发,是一个分布式、高可靠、高可用的海量日志采集、聚合、传输的系统。Flume支持在日志系统中定制各类数据发送方,用于采集数据;Flume提供对数据进行简单处理,并写到各种数据接收方的能力。简单的说,Flume是实时采集日志的数据采集引擎。

2023-09-08 10:36:22 1622 1

原创 Sqoop原理

Sqoop是apache旗下的一款 ”Hadoop和关系数据库之间传输数据”的工具导入数据:将MySQL,Oracle导入数据到Hadoop的HDFS、HIVE、HBASE等数据存储系统导出数据:从Hadoop的文件系统中导出数据到关系数据库。

2023-09-08 10:34:20 147 1

原创 kafka生产者事务踩坑记录

公司需要迁移一个老 spark 项目,之前是消费阿里 LogStore 中的实时数据,处理之后将结果落库。使用的是 spark streaming,batch 时间为 2 分钟。迁移后,需要将 LogStore 切换为 kafka,涉及到了对代码的改动。公司的 kafka 上游生产者发送数据,由于细节的设计需要,生产者开启了事务,以确保数据准且一次的写入 kafka。

2023-07-30 10:23:18 203 1

原创 Kafka零拷贝机制

Kafka之所以那么快,其中一个很大的原因就是零拷贝(Zero-copy)技术,零拷贝不是kafka的专利,而是操作系统的升级,又比如Netty,也用到了零拷贝。

2023-07-29 23:32:01 229

原创 Kafka架构及基本原理简析

Kafka是一个由Scala和Java编写的企业级的消息发布和订阅系统,最早是由Linkedin公司开发,最终开源到Apache软件基金会的项目。Kafka是一个分布式的,支持分区的,多副本的和多订阅者的高吞吐量的消息系统,被广泛应用在应用解耦、异步处理、限流削峰和消息驱动等场景。本文将针对Kafka的架构和相关组件进行简单的介绍。在介绍Kafka的架构之前,我们先了解一下Kafk的核心概念。

2023-07-29 22:52:07 277

原创 CDH集群离线部署-6.3.1

CDH集群离线部署-6.3.1

2023-07-29 20:24:50 92

原创 成功解决:ERROR:Could not build wheels for pandas, which is required to install pyproject.toml-based

成功解决:ERROR:Could not build wheels for pandas, which is required to install pyproject.toml-based

2023-05-17 12:03:55 6569 4

原创 使用flink的sql-client.sh,测试mysql-->kafka-->kafka-->mysql实时流

使用flink的sql-client测试数据流程mysql-->kafka-->kafka-->mysql

2022-12-10 20:08:54 2023 3

原创 fmysql-finkcdc-doris

flinksql 从mysql导入kafka,最后写入doris

2022-12-08 21:13:10 449 1

原创 hive中rollup、cube使用方法

当我们业务中需要根据多个维度或者多个粒度统计分析数据的时候,最笨的办法是多次group by 然后union all到一起,这个时候其实可以用rollup、cube来实现,当然要了解这两个函数的原理,如果觉得结果比我们想要的结果多一些,那可以通过grouping sets 灵活的设置分组字段。......

2021-10-09 14:57:02 1186 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除