- 博客(5)
- 收藏
- 关注
原创 深入探索Linux Kudu - 揭开神秘的Kudu面纱
Kudu是一种开源的列式存储管理器,针对结构化数据表的高性能存储和分析访问而设计。它被用于Hadoop生态系统中,以填补高吞吐顺序读取系统(如HDFS)和低延迟随机访问系统(如HBase)之间的空白。Kudu提供低延迟随机访问、高效的分析型访问,支持多种访问模式,如Impala、Spark、MapReduce等。它支持行级别的事务更新和删除操作,提供类似Parquet的表扫描功能。
2023-09-20 18:39:56 65 1
原创 Spark 内核概述
Spark内核泛指Spark的核心运行机制,包括Spark核心组件的运行机制、Spark任务调度机制、Spark内存管理机制、Spark核心功能的运行原理等,熟练掌握Spark内核原理,能够帮助我们更好地完成Spark代码设计,并能够帮助我们准确锁定项目运行过程中出现的问题的症结所在
2023-09-18 22:18:05 61
原创 Clickhouse
还有一个固定长度的字符串类型FixedString(N)这个 N 就是要声明的字节数,如果字符串包含的字节数不足N,将会对字符串末尾进行空字节填充,如果字符串包含的字节数大于 N ,将会抛出异常,可以用来保存一些列如手机号码,IP地址这一类等长的规范数据,在实际开发中使用比较少。clickhouse中的主键相当于给主键列的数据建立了一级索引,而实际上,在一级索引的基础上,clickhouse还提供了二级索引的功能,相当于给一级索引再建立一个索引,二级索引的目的同样也是为了加快数据检索速度。
2023-09-13 00:01:07 75
原创 大数据技术之SparkSQL
Spark SQL是基于Apache Spark的大数据处理引擎,结合SQL查询语言和分布式计算,提供高性能的数据分析。支持DataFrame/DataSet、自定义函数、多数据源、优化器等功能,适用于批处理和实时数据处理,与外部存储和数据湖集成,为大数据处理提供强大工具。
2023-09-07 23:27:09 159
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人