大数据平台的搭建和数据分析

本文介绍了大数据平台的搭建步骤,包括Linux系统安装、分布式计算平台组件安装、数据导入、数据分析以及结果可视化。Hadoop系列组件如HDFS、Yarn、Hive、Hbase等在大数据平台中扮演关键角色,Sqoop用于数据导入,而数据分析阶段则涉及数据预处理和建模分析,常用工具包括Hive SQL、Spark和Impala。最后,通过结果可视化呈现分析结果,为企业决策提供支持。
摘要由CSDN通过智能技术生成

  行内人士皆知,大数据分析平台的搭建有利于帮助企业构建统一的数据存储和数据处理资源,围绕企业业务开展大数据应用建设,最终形成面向服务化的数据资产。今天我们就以大数据平台为例,透过平台所包含的系统模块来看看其应该具备哪些实际功能?

 

  一般的大数据平台从平台搭建到数据分析大概包括以下几个步骤:

 

  1、Linux系统安装

 

  一般使用开源版的Redhat系统--CentOS作为底层平台。为了提供稳定的硬件基础,在给硬盘做RAID和挂载数据存储节点的时,需要按情况配置。比如,可以选择给HDFS的namenode做RAID2以提高其稳定性,将数据存储与操作系统分别放置在不同硬盘上,以确保操作系统的正常运行。

 

  2、分布式计算平台/组件安装

 

  当前分布式系统的大多使用的是Hadoop系列开源系统。Hadoop的核心是HDFS,一个分布式的文件系统。在其基础上常用的组件有Yarn、Zookeeper、Hive、Hbase、Sqoop、Impala、ElasticSearch、Spark等。

 

  使用开源组件的优点:1)使用者众多,很多bug可以在网上找的答案(这往往是开发中最耗时的地方);2)开源组件一般免费,学习和维护相对方便;3)开源组件一般会持续更新;4)因为代码开源,如果出现bug可自由对源码作修改维护。

 

  常用的分布式数据数据仓库有Hive、Hbase。Hive可以用SQL查询,Hbase可以快速读取行。外部数据库导入导出需要用到Sqoop。Sqoop将数据从Oracle、MySQL等传统数据库导入Hive或Hbase。Zookeeper是提供数据同步服务&#x

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值