聊聊这一款能真正匹配大数据性能的BI工具

最新推荐文章于 2024-07-18 22:43:28 发布

nayun123

最新推荐文章于 2024-07-18 22:43:28 发布

阅读量241

点赞数

文章标签：大数据数据分析

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/nayun123/article/details/103459186

版权

本文探讨了大数据的定义及其管理方法，重点介绍了FineBI的Spider引擎如何结合ALLUXIO、SPARK、HDFS等组件解决大数据分析的性能问题。Spider引擎利用列式存储、并行内存计算和计算本地化，提供快速的数据分析展示，并能灵活应对数据量的增长，确保业务系统的全年正常使用。此外，还讨论了HDFS、Alluxio在大数据存储中的角色以及SQL On Hadoop技术在并行分布式计算中的应用。

摘要由CSDN通过智能技术生成

最近在看关于大数据、数据仓库、数据架构的《数据架构：大数据、数据仓库以及Data Vault》一书，关于大数据有些思考，结合FineBI的Spider引擎，可看看Spider引擎对于大数据的阐释，以及在大数据平台架构中，可以处于什么样的位置。

大数据一直被定义为3W（数量大，速度快，多样性），但这些特征用于描述高速公路上运载的各种货物也没有问题。因此数仓之父 Inmon提出大数据的识别特征为：

（1）数据量大；

毋庸置疑，这条必须有。

（2）在廉价存储器中存放的数据；

以昂贵存储介质建立海量数据存储所带来的成本，将使得大数据处理无意义。因此大数据的存储介质需要廉价。

（3）以罗马人口统计方法管理的数据；

古罗马人想要对罗马帝国的每个居民征税，所以要做一次人口统计。起初视图让罗马帝国的每个公民穿过罗马城门计数。但是古罗马地域辽阔（当时包括北非、西班牙、德国、伊朗、以色列等等），居民分布广，这种方式不现实，需要使用一直集中式处理方法。最终决定组建一个人口统计团，各个人口统计员统一在城门集合，之后被派向各地，在约定的一天进行人口统计，之后在罗马城汇总数据。

海量数据处理也是这种方式，将数据处理方式发送给不同区域（分区）的数据，实现分布式数据处理。这样可以实现几乎无限数据量的数据处理。

（4）以非结构化格式存储和管理的数据。

总结下来，大数据就是以非结构化格式存储在廉价介质中的大量数据，需要以分布式处理方式来做数据计算。

而大数据

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。