最早提出“大数据”时代到来的是全球知名咨询公司麦肯锡。麦肯锡称:“数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来。” “大数据”在物理学、生物学、环境生态学等领域以及军事、金融、通讯等行业存在已有时日,却因为近年来互联网和信息行业的发展而引起人们关注。
2009年甲型H1N1流感爆发,有评论家警告,可能会出现类似1918年西班牙流感般大规模流行,影响5亿人口并夺走数千万人性命。在甲型H1N1流感爆发前几周,互联网巨头谷歌公司在《自然》杂志上发表的一篇论文,引起了业内的广泛关注。文中解释了谷歌为什么能够准确预测流感的传播:通过观察人们在网上的搜索记录来完成这个预测,而这种方法以前一直被忽略。谷歌保存了多年来所有的搜索记录,而且每天都会接受来自全球超过30亿条的搜索指令。如此庞大的数据资源足以支撑和帮助谷歌完成预测。
大数据开启了一次重大的时代转型,人们不再认为数据是静止和陈旧的。在以前,一旦完成了收集数据的目的之后,数据就会被认为已经没有用处了。但在大数据时代,数据本身发生了变化:
数据更多,不是随机样本,而是全体数据。
数据更杂,不是精确性,而是混杂性。
数据更好,不求因果关系,但求相关联系。
支持结构化、异构数据源全量和实时增量快速加载到各类Hadoop(hdfs、Hive、HBase、Kudu)、Kafka、关系型数据库等目标库;
支持无侵入实时增量数据获取功能。功能支持的源端数据库包括Oracle(RAC)、SQLServer、MySQL、MariaDB、PostgreSQL、GaussDB、DB2等;
目标库支持关系型数据和Hadoop(hdfs、Hive、HBase、Kudu)、Kafka等多种大数据存储数据库;
支持表级、实例级的数据过滤和转换;
支持源数据库一对多分发到不同的目标库中,支持源库多对一汇聚到同一个目标库;
采用多线程流处理技术,数据转发性能高,秒级延时;
支持近实时大数据入仓(Hive),Hive的批量装载速度达到近万条;
采用B/S图形界面配置,简单易用。
异构数据库数据的实时流通、交互,帮助用户完成核心数据的迁移、同步。
帮助证券、银行、支付平台实现大数据从数据库传输到大数据平台,再根据业务需要,转换成各类报表数据,为各类商业智能(BI)项目服务。