易逝的年华-CSDN博客

原创 spark on hive问题记录--持续更新

解决方法：规避解决。修改ORC的默认分割策略为：hive.exec.orc.split.strategy=BI进行解决。原因：是由于HaddopRDD生成过程中partitions是会拿参数mapreduce.job.maps或mapred.map.tasks（20）和spark默认分区数(2)做最大值比较，所以导致默认为20。解决方法：通过在启动 Spark-sql 的时候加上 --driver-java-options “-Xss10m” 选项解决这个问题。解决方法：修改该参数就可以将task降下来。

2023-11-16 17:08:43 281 1

原创 Doris介绍

Apache Doris是一个现代化的MPP分析型数据库产品。仅需亚秒级响应时间即可获得查询结果，有效地支持实时数据分析。Apache Doris的分布式架构非常简洁，易于运维，并且可以支持10PB以上的超大数据集。Apache Doris可以满足多种数据分析需求，例如固定历史报表，实时数据分析，交互式数据分析和探索式数据分析等。令您的数据分析工作更加简单高效！

2023-09-08 21:53:18 322 1

原创 Presto学习之路 -- 01.整体介绍

Presto是一个分布式SQL查询引擎，用于查询分布在一个或多个不同数据源中的大数据集。完整安装包括一个Coordinator和多个Worker。由客户端提交查询，从Presto命令行CLI提交到Coordinator。Coordinator进行解析，分析并执行查询计划，然后分发处理队列到Worker。Presto是完全基于内存的分布式大数据查询引擎，所有查询和计算都在内存中执行。Presto的输入是SQL语句；输出是具体的SQL执行结果。Presto可以对接不同的数据源，例如MySQL、Hive等。

2023-09-08 11:11:50 185 1

原创 Druid 系统深入详解

Druid 是一个开源的，分布式的，列存储的，适用于实时数据分析的存储系统，能够快速聚合、灵活过滤、毫秒级查询、和低延迟数据导入。

2023-09-08 11:00:15 502 1

原创 Hbase简介

HBase基于HDFS来存储数据，但是他存储的数据都是经过自己优化索引后的数据，所以他对数据的存储是非常高效的，比HDFS直接存储文件的性能要高很多，可以作为整个大数据的存储基石。由于HBase对于数据的索引和存储都是在列簇级别进行区分的，所以，通常在使用时，建议一个列簇下的所有列都有大致相同的数据结构和数据大小，这样可以提高HBase管理数据的效率。当一个数据有多个版本时，HBase会保证只有最后一个版本的cell数据是可以查询的，而至于其他的版本，会由HBase提供版本回收机制，在某个时间进行删除。

2023-09-08 10:37:11 164 1