数据仓库建设方案详细:数据平台建设_三库数据平台建设方案

大数据基础平台基于烽火自主知识产权FitData产品,FitData主要集成了基础计算资源、网络资源、存储资源,在统一的安全体管理体系下,将这些资源再进行深度加工、处理、关联,形成多种类型的基础服务能力,构建基础资源层,向应用提供基础资源的服务能力。数据服务总线通过服务治理来维护基础资源服务能力,并通过访 问控制、服务质量、协议转换等,对应用提供多协议支持。平台支撑体系的运维体系提供整体运维能力,保障平台的正常运行;安全体系提供整体安全能力,保障平台的数据安全和使用安全;平台采用分布式架构,支持巨量数据存储与分析, 保障专家管理系统的高性能、高可用性和易扩展性。FitData大数据基础平台结构如下图红线标出部分。

  • 数据计算与存储:是FitData 大数据平台的核心容,提供分布式存储能力和分布式计算能力。提供的存储框架能力,包括基于结构化数据存储、非结构化数据存储和半结构化数据存储,其计算框架与存储框架均是分布式集群方式部署,可以平滑的进行弹性扩容。

  • 数据服务层:数据服务层主要由数据服务接口来实现,对应用提供数据支撑。通过数据服务接口将平台的数据资源以标准 API 接口的方式开放出来,供不同的应用系统使用。数据应用层主要提供基于该平台来构建的专家系统应用。采用平台的标准API,数据资源层获取数据服务,目前API 接口包括资源目录浏览、数据查询搜索等。

  • 数据汇聚层:提供各层之间数据交换能力,由ETL数据集成工具来实现。平台支持多中异构数据源,针对不同数据源的不同数据,也提供多种数据抽取方式,例如数据库直 连抽取、Sqoop 抽取等。提供计算框架能力,主要集成了批处理计算框 架、流式计算框架、存计算框架等能力,还提供了像 Hive、Mahout、 Spark 等二次计算能力框架。平台可将这些计算能力开放,供数据模型、数据挖掘、应用系统来使用。

  • 运维体系:运维体系提供面向专家系统完整运维方案, 涵盖了运行监控到使用操作。安全体系提供面向专家系统大数据平台的用户权限管理、终 端访问控制、日志安全审计等能力。

数据存与计算是 FitData 大数据平台核心能力,将目前专家系统部业务数据源进行有效整合,集成以数据为核心的查询、 分析和管理能力。采用分层整合,灵活配置,横向扩展,纵向贯穿的大数据平台服务能力,其计算框架、存储框架都以容器的方式,可轻松灵活的在线进行装卸,以平滑扩充大数据平台的集成能力。除此还集成了二级计算框架、通用的数据处理算法库和数据仓库,将大数据平台的数据进行清洗、加工和分析挖掘,处理后的数据可订阅,充分体现数据即服务的大数据思想。

  • 分布式存储框架:主要负责针对巨量数据的存储,以分布式存储技术, 支持快速、巨量、多种类型的数据存取。支持从数据源抽取数据到大数 据平台存储,集成多种存储方式,有针对结构化数据、非结构化数据和 半结构化数据的存储。

  • 计算框架:主要提供批处理计算、存计算、流式计算框架,由数据处 理管理驱动来分配和调度计算框架,加载数据处理算法,完成数据处理。

  • 数据仓库:主要对计算框架完成后的结果进行存储,支持 Hbase、MS SQL Server 等存储,同时将数据以接口的形式开放出去。

  • 数据处理算法库:集成通用的数据分析算法、能够插入用户自定义的数 据模型算法,配合以资源管理系统为主的计算存储框架,进行数据处理。

  • 资源管理系统,以容器的方式,来为计算框架和存储框架分配资源,并 支持资源调度,弹性伸缩。

  • 数据服务总线:主要将基础平台的能力和数据服务接口,以 API 的方式开放出去,形成一个共享的、供应用使用的服务总线。

2.2        FitData特点

  • 广泛适应性:支持结构化、半结构化、非结构化数据;支持实时数据。
  • 巨量数据:数据处理能力在PB级以上。
  • 线性扩展:存储、计算均可增加节点进行线性扩展。
  • 统一运维管理:降低安装部署、运营、维护成本。
  • 经济性:可运行在普通X86服务器上,硬件成本低。
  • 高可靠性:支持容灾容错、备份恢复机制,支持自动告警。支持节点可靠性、数据可靠性。
  • 高性能:高效数据处理性能,支持Spark、Storm、R。
  • 认证安全:支持Kerberos安全认证、LDAP账户管理控制。
  • 数据安全:支持数据加密。
  • 负载均衡:支持节点间存储、技术负载均衡。
  • 开放性:支持符合Hadoop规的第三方组件或工具。

2.3        FitData主要功能

FitData是基于开源Hadoop开发的企业级大数据产品,提供PB级数据的采集、存储和处理能力,支持数据加载、查询、分析、挖掘等功能。

2.3.1        节点批量自动部署

通过以Web管理,以图形界面的方式实现大数据平台节点批量自动部署,只需添加主机名(或者IP地址)即可实现将节点服务器添加到集群中,截图如下:


图 向集群中添加节点

2.3.2        节点动态管理

通过web管理实现节点的动态添加、删除,当存储空间或者计算资源不足时,支持向集群中添加同等配置的服务器,实现大数据平台在线动态扩容,而不需要停机处理,不影响平台正常运行。

大数据平台以Web图形界面实现Hadoop集群监控,包括大数据平台的硬件资源、软件资源、数据资源的监控,以及整个Hadoop集群的工作负载。主要包括以下几个方面:

2.3.3        服务组件状态监控

通过管理平台可以看到所有目前已安装的服务组件的健康状况。



图 服务组件运行状况

2.3.4        计算资源负载监控

通过管理平台可以实时看到整个平台的资源负载情况,包括集群的CPU、集群磁盘IO、集群网络IO、HDFS IO,如下图所示:


图 计算资源监控

2.3.5        多任务实时监控

通过对集群运行任务的实时监测,并根据任务优先级和耗时不同对任务进行动态调度,减少出现大量任务等待和重要任务无法及时完成的可能,可以使Hadoop集群的运行变得更加高效合理。

(1)、系统根据各队列资源的最小值分配集群资源,这样可以按照需求对各任务队列获取的集群资源进行分配,而且不会出现集群资源的闲置浪费。
(2)、可以实现对各任务队列获取的集群资源大小实时动态调整,及时保证高优先级任务所在队列获得更多的集群资源。
(3)、可以实现在某个任务队列出现空闲时,将该任务队列获取的集群资源自动分配给其他繁忙的任务队列,以使得集群资源利用最大化。

2.3.6        磁盘性能监控

对集群机器的硬盘进行监控,如下图所示,详细的展示出磁盘IO的利用率,读写速度,磁盘的等待时间。

自我介绍一下,小编13年上海交大毕业,曾经在小公司待过,也去过华为、OPPO等大厂,18年进入阿里一直到现在。

深知大多数Linux运维工程师,想要提升技能,往往是自己摸索成长或者是报班学习,但对于培训机构动则几千的学费,着实压力不小。自己不成体系的自学效果低效又漫长,而且极易碰到天花板技术停滞不前!

因此收集整理了一份《2024年Linux运维全套学习资料》,初衷也很简单,就是希望能够帮助到想自学提升又不知道该从何学起的朋友,同时减轻大家的负担。
img
img
img
img
img

既有适合小白学习的零基础资料,也有适合3年以上经验的小伙伴深入学习提升的进阶课程,基本涵盖了95%以上Linux运维知识点,真正体系化!

由于文件比较大,这里只是将部分目录大纲截图出来,每个节点里面都包含大厂面经、学习笔记、源码讲义、实战项目、讲解视频,并且后续会持续更新

如果你觉得这些内容对你有帮助,可以添加VX:vip1024b (备注Linux运维获取)
img

为了做好运维面试路上的助攻手,特整理了上百道 【运维技术栈面试题集锦】 ,让你面试不慌心不跳,高薪offer怀里抱!

这次整理的面试题,小到shell、MySQL,大到K8s等云原生技术栈,不仅适合运维新人入行面试需要,还适用于想提升进阶跳槽加薪的运维朋友。

本份面试集锦涵盖了

  • 174 道运维工程师面试题
  • 128道k8s面试题
  • 108道shell脚本面试题
  • 200道Linux面试题
  • 51道docker面试题
  • 35道Jenkis面试题
  • 78道MongoDB面试题
  • 17道ansible面试题
  • 60道dubbo面试题
  • 53道kafka面试
  • 18道mysql面试题
  • 40道nginx面试题
  • 77道redis面试题
  • 28道zookeeper

总计 1000+ 道面试题, 内容 又全含金量又高

  • 174道运维工程师面试题

1、什么是运维?

2、在工作中,运维人员经常需要跟运营人员打交道,请问运营人员是做什么工作的?

3、现在给你三百台服务器,你怎么对他们进行管理?

4、简述raid0 raid1raid5二种工作模式的工作原理及特点

5、LVS、Nginx、HAproxy有什么区别?工作中你怎么选择?

6、Squid、Varinsh和Nginx有什么区别,工作中你怎么选择?

7、Tomcat和Resin有什么区别,工作中你怎么选择?

8、什么是中间件?什么是jdk?

9、讲述一下Tomcat8005、8009、8080三个端口的含义?

10、什么叫CDN?

11、什么叫网站灰度发布?

12、简述DNS进行域名解析的过程?

13、RabbitMQ是什么东西?

14、讲一下Keepalived的工作原理?

15、讲述一下LVS三种模式的工作过程?

16、mysql的innodb如何定位锁问题,mysql如何减少主从复制延迟?

17、如何重置mysql root密码?

一个人可以走的很快,但一群人才能走的更远。不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎扫码加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!
img

?

16、mysql的innodb如何定位锁问题,mysql如何减少主从复制延迟?

17、如何重置mysql root密码?

一个人可以走的很快,但一群人才能走的更远。不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎扫码加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!
[外链图片转存中…(img-XYewUKTA-1713069679170)]

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值