基于Hadoop架构下的FineBI大数据引擎技术原理

最新推荐文章于 2023-05-31 17:52:05 发布

VIP文章 qunqun8889

最新推荐文章于 2023-05-31 17:52:05 发布

阅读量359

点赞数

分类专栏：大数据文章标签： Hadoop 大数据大数据开发大数据学习大数据入门

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qunqun8889/article/details/103694956

版权

随着各个业务系统的不断增加，以及各业务系统数据量不断激增，业务用户的分析诉求越来越多且变化很快，IT数据支撑方的工作变得越来越复杂。

1、数据来自多个不同的系统，存在需要跨数据源分析，需要对接各种不同数据源等问题。

2、需要分析的数据体量越来越大，并且要快速获得分析结果的问题。

3、部分数据还需要二次加工处理的问题。

供数支撑方在业务系统的前端看起来基本没有任何操作，但背后的逻辑十分复杂，实现难度也很大。就像看得到的是冰山一角，看不到的是海水下绝大部分的支撑。

为了解决日益激增的大数据量分析诉求，大部分公司会通过搭建Hadoop、Spark等大数据架构，配以BI工具做数据层面的分析，来搭建这样一整套大数据分析平台。

大数据分析很关键的一个点在于性能：取数快不快，分析响应快不快，能否实时？

这个问题除了平台的底层架构，BI的运行性能也有很大相关。

大家可能普遍认为的BI，就是一个数据展现工具，在前端看起来没有太多有技术含量的操作，但背后的逻辑十分复杂，实现难度也很大。就像看得到的是冰山一角，看不到的是海水下绝大部分的支撑。

基于Hadoop架构下的FineBI大数据引擎技术原理

好的BI工具都有与之依赖的数据引擎，数据引擎的作用一方面是数据响应的性能（数据量、速率），还有很重要的一点是能否适应企业不同业务情况的模式/方案。比如小数据快速读取，大数据分布式并行运算，节点数据实时展现等等.....

FineBI V5.0版本就是一个可以支撑以上需求的工具，背后依赖的是Spider大数据引擎。

Spider高性能引擎可以支撑10亿量级数据在BI前端快速的拖拽分析和展示，且有高可用架构设计保证数据引擎全年可支撑业务分析。

Spider引擎的前世今生

为什么叫Spider引擎呢？听起来很像爬虫软件，和数据分析又有什么关系呢？

一则是字面翻译过来的意思——蜘蛛，从蜘蛛就很容易联想到结网。从结网的角度的看，有两个含义，一是将之前已有的引擎功能全部联结在一起，因为5.0引擎实现了实时数据与抽取数据的对接与灵活切换；二是5.0数据引擎比较重要的分布式模式，这种模式是由各个组件组合起来的架构，结网就是将这些组件联结起来的意思。

二则是谐音法拉利的一款敞篷跑车。跑车嘛，速度快。这款跑车做了加长与加宽设计，使其更稳定，保持性能且更安全。恰好与我们的数据引擎理念不谋而合。

因此，就取名Spider引擎。

再来说说它的发展史。

FineBI的数据引擎从起初做数据抽取的cube/FineIndex引擎，发展到后来开发了直连引擎/FineDirect引擎。再到2016年开发，17年到18年迅速扩展到60多家客户使用的分布式引擎。引擎功能与支撑数据量都在伴随着时代的发展不断进步。然而引擎类别繁多，用户理解与使用都是问题。

因此，到v5.0版本，将引擎做了大一统，Spider引擎将之前所有引擎功能全部囊括其中，抽取数据与实时数据可互相切换，本地模式可根据数据量情况扩展为分布式模式，使用与理解上都更加简单了。

最低0.47元/天解锁文章

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
基于Hadoop架构下的FineBI大数据引擎技术原理

随着各个业务系统的不断增加，以及各业务系统数据量不断激增，业务用户的分析诉求越来越多且变化很快，IT数据支撑方的工作变得越来越复杂。1、数据来自多个不同的系统，存在需要跨数据源分析，需要对接各种不同数据源等问题。2、需要分析的数据体量越来越大，并且要快速获得分析结果的问题。3、部分数据还需要二次加工处理的问题。供数支撑方在业务系统的前端看起来基本没有任何操作，但背后的逻辑十分复杂，...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。