基于Hadoop架构下的FineBI大数据引擎技术原理

随着各个业务系统的不断增加,以及各业务系统数据量不断激增,业务用户的分析诉求越来越多且变化很快,IT数据支撑方的工作变得越来越复杂。

1、数据来自多个不同的系统,存在需要跨数据源分析,需要对接各种不同数据源等问题。

2、需要分析的数据体量越来越大,并且要快速获得分析结果的问题。

3、部分数据还需要二次加工处理的问题。

供数支撑方在业务系统的前端看起来基本没有任何操作,但背后的逻辑十分复杂,实现难度也很大。就像看得到的是冰山一角,看不到的是海水下绝大部分的支撑。

为了解决日益激增的大数据量分析诉求,大部分公司会通过搭建Hadoop、Spark等大数据架构,配以BI工具做数据层面的分析,来搭建这样一整套大数据分析平台。

大数据分析很关键的一个点在于性能:取数快不快,分析响应快不快,能否实时?

这个问题除了平台的底层架构,BI的运行性能也有很大相关。

大家可能普遍认为的BI,就是一个数据展现工具,在前端看起来没有太多有技术含量的操作,但背后的逻辑十分复杂,实现难度也很大。就像看得到的是冰山一角,看不到的是海水下绝大部分的支撑。

基于Hadoop架构下的FineBI大数据引擎技术原理

 

好的BI工具都有与之依赖的数据引擎,数据引擎的作用一方面是数据响应的性能(数据量、速率),还有很重要的一点是能否适应企业不同业务情况的模式/方案。比如小数据快速读取,大数据分布式并行运算,节点数据实时展现等等.....

FineBI V5.0版本就是一个可以支撑以上需求的工具,背后依赖的是Spider大数据引擎。

Spider高性能引擎可以支撑10亿量级数据在BI前端快速的拖拽分析和展示,且有高可用架构设计保证数据引擎全年可支撑业务分析。

Spider引擎的前世今生

为什么叫Spider引擎呢?听起来很像爬虫软件,和数据分析又有什么关系呢?

一则是字面翻译过来的意思——蜘蛛,从蜘蛛就很容易联想到结网。从结网的角度的看,有两个含义,一是将之前已有的引擎功能全部联结在一起,因为5.0引擎实现了实时数据与抽取数据的对接与灵活切换;二是5.0数据引擎比较重要的分布式模式,这种模式是由各个组件组合起来的架构,结网就是将这些组件联结起来的意思。

二则是谐音法拉利的一款敞篷跑车。跑车嘛,速度快。这款跑车做了加长与加宽设计,使其更稳定,保持性能且更安全。恰好与我们的数据引擎理念不谋而合。

因此,就取名Spider引擎。

再来说说它的发展史。

FineBI的数据引擎从起初做数据抽取的cube/FineIndex引擎,发展到后来开发了直连引擎/FineDirect引擎。再到2016年开发,17年到18年迅速扩展到60多家客户使用的分布式引擎。引擎功能与支撑数据量都在伴随着时代的发展不断进步。然而引擎类别繁多,用户理解与使用都是问题。

因此,到v5.0版本,将引擎做了大一统,Spider引擎将之前所有引擎功能全部囊括其中,抽取数据与实时数据可互相切换,本地模式可根据数据量情况扩展为分布式模式,使用与理解上都更加简单了。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
该项目的大数据平台架构设计应该包括以下几个方面: 1. 数据采集:需要采集抑郁症患者的相关数据,包括生理、心理、社交等方面的数据。可以使用传感器、问卷调查等方式进行数据采集。 2. 数据存储:需要将采集到的数据存储到Hadoop集群中,可以使用HDFS进行数据存储。 3. 数据清洗:数据采集到的数据很可能存在噪声和错误,需要进行数据清洗,可以使用MapReduce等算法进行数据清洗。 4. 数据挖掘:需要从采集到的数据中挖掘出有用的信息,可以使用机器学习算法进行数据挖掘,例如基于朴素贝叶斯算法和决策树算法的分类算法等。 5. 数据分析:需要对挖掘出的信息进行分析,例如探索性数据分析、关联分析等,可以使用Hive和Spark等工具进行数据分析。 6. 可视化展示:需要将数据分析的结果进行可视化展示,可以使用Tableau等工具进行数据可视化。 在以上的架构设计中,数据清洗、数据挖掘和数据分析这些步骤都可以使用基于Hadoop的MapReduce等算法进行实现。这些算法的原理主要包括: 1. MapReduce算法:MapReduce算法是一种分布式计算框架,它将大规模的数据分成若干个小的数据块,然后将这些数据块分配到不同的计算节点上进行处理,最后将处理结果汇总得到最终结果。 2. 朴素贝叶斯算法:朴素贝叶斯算法是一种基于贝叶斯定理的分类算法,它假设所有的特征之间相互独立,然后计算每个类别的概率,并将待分类数据与每个类别的概率进行比较,从而得出最终的分类结果。 3. 决策树算法:决策树算法是一种基于树形结构的分类算法,它将数据分类成一系列的节点,每个节点表示一个特征,然后根据每个节点的特征进行分类,最终得到最终的分类结果。 综上所述,基于Hadoop的抑郁症患者离线分析项目可以使用以上算法进行实现,从而实现对抑郁症患者数据的挖掘和分析。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值