一束玫瑰作物'-CSDN博客

原创深入探索Linux Kudu - 揭开神秘的Kudu面纱

Kudu是一种开源的列式存储管理器，针对结构化数据表的高性能存储和分析访问而设计。它被用于Hadoop生态系统中，以填补高吞吐顺序读取系统（如HDFS）和低延迟随机访问系统（如HBase）之间的空白。Kudu提供低延迟随机访问、高效的分析型访问，支持多种访问模式，如Impala、Spark、MapReduce等。它支持行级别的事务更新和删除操作，提供类似Parquet的表扫描功能。

2023-09-20 18:39:56 65 1

原创 Spark 内核概述

Spark内核泛指Spark的核心运行机制，包括Spark核心组件的运行机制、Spark任务调度机制、Spark内存管理机制、Spark核心功能的运行原理等，熟练掌握Spark内核原理，能够帮助我们更好地完成Spark代码设计，并能够帮助我们准确锁定项目运行过程中出现的问题的症结所在

2023-09-18 22:18:05 61

还有一个固定长度的字符串类型FixedString（N）这个 N 就是要声明的字节数，如果字符串包含的字节数不足N，将会对字符串末尾进行空字节填充，如果字符串包含的字节数大于 N ，将会抛出异常，可以用来保存一些列如手机号码，IP地址这一类等长的规范数据，在实际开发中使用比较少。clickhouse中的主键相当于给主键列的数据建立了一级索引，而实际上，在一级索引的基础上，clickhouse还提供了二级索引的功能，相当于给一级索引再建立一个索引，二级索引的目的同样也是为了加快数据检索速度。

2023-09-13 00:01:07 75

原创大数据之 SparkCore

学好大数据，有这一章就够了

2023-09-11 21:36:11 65

原创大数据技术之SparkSQL

Spark SQL是基于Apache Spark的大数据处理引擎，结合SQL查询语言和分布式计算，提供高性能的数据分析。支持DataFrame/DataSet、自定义函数、多数据源、优化器等功能，适用于批处理和实时数据处理，与外部存储和数据湖集成，为大数据处理提供强大工具。

2023-09-07 23:27:09 159

求log01.zip的总流量

关于flow

2023-09-07

DMP项目需求，项目里面的所有需求都要实现

1.（指标含义）问一问 2. Parquet 文件 3. 报表 4. 数据标签化 5. 统一用户识别 6. 上下文标签合并

2023-09-07

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

2302_76772356的博客

原创深入探索Linux Kudu - 揭开神秘的Kudu面纱

原创 Spark 内核概述

原创 Clickhouse

原创大数据之 SparkCore

原创大数据技术之SparkSQL

求log01.zip的总流量

DMP项目需求，项目里面的所有需求都要实现

空空如也

原创 深入探索Linux Kudu - 揭开神秘的Kudu面纱

原创 Spark 内核概述

原创 Clickhouse

原创 大数据 之 SparkCore

原创 大数据技术之SparkSQL

求log01.zip的总流量

DMP项目需求，项目里面的所有需求都要实现

空空如也

原创深入探索Linux Kudu - 揭开神秘的Kudu面纱

原创大数据之 SparkCore

原创大数据技术之SparkSQL