大数据套件初识

Hadoop

hdfs

分布式文件存储系统

  • namenode:作为master,负责整个系统的元数据的存储,管理整个集群数据的block分配和调度
  • datanode:数据节点,存放数据
    • block数据存储的最小粒度,默认128MB一个
    • 数据副本:以block为粒度进行副本备份,可配置

MapReduce

计算系统

  • map:一段计算函数(代码),将一个任务拆分为多个map,放在不同的计算节点,分开执行,并将执行结果存储落盘
  • reduce:将多个map执行的结果从磁盘中读取,并进行聚合、汇总,再讲最终结果放入hdfs

Yarn

作为Hadoop的资源调度器,负责系统资源cpu等的资源调度工作

Hive

基于Hadoop的一种大数据管理框架,用来进行数据提取、转化、加载,将hadoop的一些文件语义操作通过类sql实现,并可通过类sql完成一些计算任务,计算任务可通过不同计算框架执行(原生mapreduce、spark、Tez);

hive可以将结构化的数据文件映射为一张数据库表,并提供完整的sql查询功能,可以将sql语句转化为MapReduce任务进行运行

Spark

基于hadoop的MapReduce任务,做了一系列优化,将计算任务通过有向无环图进行重新整理,并将中间结果放入内存,提升了计算效率;

Sqoop

Sqoop(发音:skup)是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql…)间进行数据的传递,可以将一个关系型数据库*(例如 : MySQL ,Oracle ,Postgres等)*中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。

Superset

可视化图标工具,类似于grafna

库中。

Superset

可视化图标工具,类似于grafna

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
在进行大数据财务分析时,可以使用Python作为编程语言来处理和分析数据。Python有丰富的数据处理和分析库,如Pandas、NumPy和Matplotlib,可以帮助处理大规模的数据集和生成可视化报告。此外,还可以使用开源的分布式SQL查询引擎Presto来进行交互式的分析查询。Presto适用于处理大规模的数据,并可以实现快速的交互式分析。它可以对250PB以上的数据进行快速地交互式分析,并且在处理速度方面比传统的查询引擎如Hive和MapReduce要好上10倍以上。 另外,Amazon Kinesis Streams是一个用于处理流数据的服务,可以从数十万种来源中连续捕获和存储大量的数据。它可以用于收集和分析网站点击流、财务交易、社交媒体源、IT日志和定位追踪事件等数据,满足大数据财务分析的需求。 对于商务智能方面的需求,可以使用开源的商务智能软件Pentaho。Pentaho是一个基于Java平台的商业智能套件,包括报表、分析、图表、数据集成、数据挖掘等工具软件。它以工作流为核心,强调面向解决方案而非工具组件,可以满足商务智能的各个方面的需求。 综上所述,大数据财务分析可以基于Python编程语言进行处理和分析数据,并可以借助Presto进行交互式查询和分析。此外,Amazon Kinesis Streams可以用于处理流数据,而Pentaho则是一个全面的商务智能套件,可满足各种商务智能需求。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值