本发明涉及计算机软件应用技术领域,具体涉及一种基于kettle的大数据平台数据抽取和统计方法。
背景技术:
随着云计算技术的不断发展,云计算技术不断落地成为支撑各行业信息技术发展的重要支柱。基于hadoop和hbase的分布式集群,如今已成为国内外云计算热门研究对象。Hadoop的HDFS分布式存储为云平台提供了分布式文件存储系统,而hbase因为具有良好的读写性能,并且能够支持大数据量的表,因而适用于简单业务、数据量巨大的在线数据库及数据仓库。
由于hbase本身不适合做业务数据库,业务数据库往往由mysql、oracle等成熟的关系型数据库担任,hbase则负责汇集各个业务系统的数据。这样,依托于hbase强大的分布式列示存储能力,各个业务系统的数据可以统一汇集到hbase数据库中,为大规模统计分析和统一查询奠定了基础。在这个过程中,数据的汇集工作由kettle来完成。
Kettle是一款开源的ETL工具,可以在hbase与传统的关系型数据库数据库(mysql、oracle等)间进行数据的传递,并对数据进行转换。由于hbase中的数据量大、表的数量多,所以想要统计hbase中的数据总量、每张表的数据量、每天的数据增量是非常困难的,需要运行mapreduce程序来完成,由于数据量巨大,表数量多,这个过程消耗大量的计算资源和网络资源。
随着互联网时代的到来,数据量越来越大,使用传统的数据库已经不能够支撑庞大的统计分析工作。大数据处理技术应运而生,但是大数据技术也有其局限性,不能很好的支持在线事务。传统关系型数据库支撑在线系统与大数据技术处理线下统计分析将会长期并存。
在某些场景下,数据量的情况是一项重要指标。在时间维度上有每天、每周、每月、每年的数