批量数据的聚合以及groupby实现

最新推荐文章于 2024-08-09 03:43:54 发布

年轻的海员

最新推荐文章于 2024-08-09 03:43:54 发布

阅读量4.3k

点赞数

分类专栏： java程序设计文章标签：大数据流计算

本文链接：https://blog.csdn.net/tracymkgld/article/details/50698924

版权

本文探讨了如何使用sql进行聚合计算，并指出虽然许多大数据系统支持sql，但有时需要自定义实现，如在storm中处理非Trident的聚合操作。文章通过一个简单的分组聚合引擎的实现过程，包括定义事件Javabean、聚合接口、聚合类型和分组字段，解释了如何完成数据的预处理、分组和bucket的创建，适用于有限数据集的聚合需求。

摘要由CSDN通过智能技术生成

大家一定对sql非常熟悉，关系型数据库自不必说，现在越来越多的大数据系统也都支持sql，比如hive，odps ,presto，phoenix（hbase），galaxy 以及cep（esper）等都支持sql，或者类sql语言。sql语言更接近自然语言，让人非常容易理解，上手也比较方便，可以有效降低系统的入门门槛。很多大数据系统都用antlr来实现sql，antlr帮助我们实现sql语法解析和编译、抽象语法树啊一些复杂的概念，在antlr的帮助下，简单了很多。

sql可以帮助我们实现sum,avg,max,min,count等简单的聚合计算，还可以依靠parsii（https://github.com/scireum/parsii）这种表达式解析工具实现更复杂的表达式条件过滤功能。

sql看起来是对静态数据集的一种计算操作，比如select sum(field1) from tablex，是对表tablex的某一个字段进行加和操作，数据库的表相对来讲是一个静态的数据集。但其实sql还支持流数据的计算，对静态数据集和对流数据计算本质上并没有什么区别，都是单条记录，单个事件，或者tuple之类的数据单元分别计算后再聚合的结果。

不同系统的sql被antlr编译解析完成的执行计划也完全不同，hive是mr job，galaxy是storm topology等，那么假设我们现在有一批窗口数据，或者说有限数据集，如何完成这些数据按照字段分组聚合的功能？

有时候我们会在storm中完成一些聚合操作（非trident），那就需要你自己实现groupby之类的逻辑，当然我们也可以选择Esper或者siddhi这种开源cep引擎，你只需要写写sql就可以实现你的逻辑，但是一般cep 引擎比较消耗内存和cpu，而我们仅仅需要一些基础聚合功能，用它显得不划算。

那么现在我们就自己实现一个简单的分组聚合引擎：
1、首先定义一个Javabean,用来描述一种类型的事件或者叫record，包含事件的schema和一些标签数据

import java.io.Serializable;
import java.util.Map;


public class EventBase implements Serializable{

	private long timestamp;
	private Map<String, String> tags;

	public EventBase(){
	}
	public long getTimestamp() {
		return timestamp;
	}
	public void setTimestamp(long timestamp) {
		this.timestamp = timestamp;
	}
	public Map<String, String> getTags() {
		return tags;
	}
	public void setTags(Map<String, String> tags) {
		this.tags = tags;
	}
	
	public String toString(){
		StringBuffer sb = new StringBuffer();
		sb.append("prefix:");
		sb.append(", timestamp:");
		sb.append(timestamp);
		sb.append(", humanReadableDate:");
		sb.append(timestamp);
		sb.append(", tags: ");
		if(tags != null){
			for(Map.Entry<String, String> entry : tags.entrySet()){
				sb.append(entry.toString());
				sb.append(",");
			}
		}
		sb.append(", encodedRowkey:");
		return sb.toString();
	}


}

用户可以继承该事件，实现自己的事件的定义，比如：

public class TestEvent extends EventBase {
    private int numHosts;
    private Long numClusters;

    public int getNumHosts() {
        return numHosts;
    }

    public void setNumHosts(int numHosts) {
        this.numHosts = numHosts;
    }

    public Long getNumClusters() {
        return numClusters;
    }

    public void setNumClusters(Long numClusters) {
        this.numClusters = numClusters;
    }
    public String toString(){
        StringBuffer sb = new StringBuffer();
        sb.append(super.toString());
        return sb.toString();
    }
}

2、弄一个聚合接口，然后实现它

public interface Aggregator {
	public void process(EventBase event) throws Exception;
}

3、定义聚合类型，目前先支持sum,avg,max,min,count这5种类型

import java.util.regex.Matcher;
import java.util.regex.Pattern;

public enum AggregateType {
	count("^(count)$"),
	sum("^sum\\((.*)\\)$"),
	avg("^avg\\((.*)\\)$"),
	max("^max\\((.*)\\)$"),
	min("^min\\((.*)\\)$");
	
	private Pattern pattern;
	private AggregateType(String patternString){
		this.pattern = Pattern.compile(patternString);
	}

	public AggregateTypeMatcher matcher(String function){
		Matcher m = pattern.matcher(function);

		if(m.find()){
			return new AggregateTypeMatcher(this, true, m.group(1));
		}else{
			return new AggregateTypeMatcher(this,