StarRocks表类型之聚合表

建表时,支持定义排序键和指标列,并为指标列指定聚合函数。当多条数据具有相同的排序键时,指标列会进行聚合。在分析统计和汇总数据时,聚合表能够减少查询时所需要处理的数据,提升查询效率。

适用场景

  • 适用于分析统计和汇总数据

在这些场景中,数据查询和导入,具有以下特点:

  • 多为汇总类查询,比如 SUM、MAX、MIN等类型的查询。
  • 不需要查询原始的明细数据。
  • 旧数据更新不频繁,只会追加新的数据。

原理

数据导入至数据查询阶段,聚合表内部同一排序键的数据会多次聚合

  • 数据导入阶段:数据按批次导入至聚合表时,每一个批次的数据形成一个版本。在一个版本中,同一排序键的数据会进行一次聚合。
  • 后台文件合并阶段 (Compaction):数据分批次多次导入至聚合表中,会生成多个版本的文件,多个版本的文件定期合并成一个大版本文件时,同一排序键的数据会进行一次聚合。
  • 查询阶段:所有版本中同一排序键的数据进行聚合,然后返回查询结果。

使用说明

  • 在建表语句中,排序键必须定义在其他列之前。

  • 排序键可以通过 AGGREGATE KEY 显式定义。

  • 如果 AGGREGATE KEY 未包含全部维度列(除指标列之外的列),则建表会失败。 如果不通过 AGGREGATE KEY
    显示定义排序键,则默认除指标列之外的列均为排序键。 排序键必须满足唯一性约束,必须包含全部维度列,并且列的值不会更新。

  • 指标列:通过在列名后指定聚合函数,定义该列为指标列。一般为需要汇总统计的数据。

  • 聚合函数:指标列使用的聚合函数。聚合表支持的聚合函数,请参见 CREATE TABLE。

举例:

CREATE TABLE IF NOT EXISTS example_db.aggregate_tbl (
    site_id LARGEINT NOT NULL COMMENT "id of site",
    date DATE NOT NULL COMMENT "time of event",
    city_code VARCHAR(20) COMMENT "city_code of user",
    pv BIGINT SUM DEFAULT "0" COMMENT "total page views" --指标列
)
AGGREGATE KEY(site_id, date, city_code)
DISTRIBUTED BY HASH(site_id)
PROPERTIES (
"replication_num" = "3"
);
  • 9
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
在Python的Pandas库中,可以使用groupby方法对进行聚合操作。首先,需要导入Pandas库并读取数据。例如,可以使用以下代码导入数据并进行分组操作: ```python import pandas as pd # 读取数据 df = pd.read_csv('data.csv') # 使用groupby方法进行分组 grouped = df.groupby('column_name') ``` 在上述代码中,'column_name'是要进行分组的列名。接下来,可以在每个分组上应用聚合函数,例如求和、平均值等。可以使用聚合函数,如sum、mean、count等。以下是一个示例代码: ```python # 对每个分组应用聚合函数 result = grouped.agg({'column1': 'sum', 'column2': 'mean'}) # 打印结果 print(result) ``` 在上述代码中,'column1'和'column2'是要进行聚合的列名,sum和mean是要应用的聚合函数。可以根据需要选择不同的聚合函数和列名进行聚合操作。 总结起来,使用Pandas的groupby方法可以对数据进行分组和聚合操作,可以根据需要选择不同的聚合函数和列名进行聚合。 #### 引用[.reference_title] - *1* *2* *3* [数据分析新手必读!Python Pandas 分组和聚合操作详解](https://blog.csdn.net/Java_ZZZZZ/article/details/130901036)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^control,239^v3^insert_chatgpt"}} ] [.reference_item] [ .reference_list ]
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值