聊聊这一款能真正匹配大数据性能的BI工具

本文探讨了大数据的定义及其管理方法,重点介绍了FineBI的Spider引擎如何结合ALLUXIO、SPARK、HDFS等组件解决大数据分析的性能问题。Spider引擎利用列式存储、并行内存计算和计算本地化,提供快速的数据分析展示,并能灵活应对数据量的增长,确保业务系统的全年正常使用。此外,还讨论了HDFS、Alluxio在大数据存储中的角色以及SQL On Hadoop技术在并行分布式计算中的应用。
摘要由CSDN通过智能技术生成

最近在看关于大数据、数据仓库 、数据架构的《数据架构:大数据、数据仓库以及Data Vault》一书,关于大数据有些思考,结合FineBI的Spider引擎,可看看Spider引擎对于大数据的阐释,以及在大数据平台架构中,可以处于什么样的位置。

大数据一直被定义为3W(数量大,速度快,多样性),但这些特征用于描述高速公路上运载的各种货物也没有问题。因此数仓之父 Inmon提出大数据的识别特征为:

(1)数据量大;

毋庸置疑,这条必须有。

(2)在廉价存储器中存放的数据;

以昂贵存储介质建立海量数据存储所带来的成本,将使得大数据处理无意义。因此大数据的存储介质需要廉价。

(3)以罗马人口统计方法管理的数据;

古罗马人想要对罗马帝国的每个居民征税,所以要做一次人口统计。起初视图让罗马帝国的每个公民穿过罗马城门计数。但是古罗马地域辽阔(当时包括北非、西班牙、德国、伊朗、以色列等等),居民分布广,这种方式不现实,需要使用一直集中式处理方法。最终决定组建一个人口统计团,各个人口统计员统一在城门集合,之后被派向各地,在约定的一天进行人口统计,之后在罗马城汇总数据。

海量数据处理也是这种方式,将数据处理方式发送给不同区域(分区)的数据,实现分布式数据处理。这样可以实现几乎无限数据量的数据处理。

(4)以非结构化格式存储和管理的数据。

总结下来,大数据就是以非结构化格式存储在廉价介质中的大量数据,需要以分布式处理方式来做数据计算。

而大数据

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值