如何进行大数据开发学习：大数据平台应用六大知识点

最新推荐文章于 2022-10-03 10:39:25 发布

别盲目追风

最新推荐文章于 2022-10-03 10:39:25 发布

阅读量1.4k

点赞数 2

文章标签：大数据大数据开发大数据平台

今天给大家分享：大数据平台应用六个知识点，正在学习或者准备学习大数据开发的朋友都可以多了解一下。

一、大数据中的数据仓库和Mpp数据库如何选型?

在Hadoop平台中，一般大家都把hive当做数据仓库的一种选择，而Mpp数据库的典型代表就是impala，presto。Mpp架构的数据库主要用于即席查询场景，暨对数据查询效率有较高要求的场景，而对数据仓库的查询效率要求无法做大MPP那样，所以更多地适用与离线分析场景。

Hadoop已经是大数据平台的实时标准，其中Hadoop生态中有数据仓库Hive，可以作为大数据平台的标准数据仓库，

对于面向应用的MPP数据库，可以选择MYCAT(mySql的分布式架构)或是impala(基于Hive和Hbase)，包括对称式和非对称式两种分布式模式。

二、大数据分析中的实时推荐是如何实现的?

实时推荐需要使用实时处理框架结合推荐算法，从而做到对数据的实时处理和推荐。实时处理框架有Storm、Flink、SparkStreaming，组件可以对接Kafka，获取实时流数据，在实时框架内部实现对数据的处理过程。

1、实时推荐需要借助实时计算框架例如Spark或是Strom技术

2、数据采集采用Flume+Kafka作为数据缓存和分发作用

3、同时还需要有非常适合的实时推荐算法，例如基于用户画像的实时推荐，或是基于用户行为的实施推荐、或是对商品相识度的实施推荐等不同的算法

三、数据治理有何高效的处理方法或工具?

数据治理没有具体的工具和方法，这是一项浩大的工程，可能牵扯到每个部门，既有技术人员参与，又要有业务人员参与，关键时刻还要有领导进行决策。每个公司的数据情况不同，处理方法也不尽相同，基本的方法是有的，暨通过对数据的梳理(元数据、主数据)，发现数据质量问题，再通过质量标准或组织协调的方式，对数据进行标准化处理的。

【大数据开发学习资料领取方式】：加入大数据技术学习交流q群522189307，私信管理员即可免费领取

数据治理是一项人力和辛苦活，没有捷径和什么有效的工具，而且在一个大数据项目中，数据治理是非常重要的一个环节，因为只有数据质量满足前端应用需求，才有可能挖掘和分析出准确的结果。

具体数据处理方法还需要看实际业务情况，例如数据库、数据类型、数据规模等。

数据治理的过程是一个对业务系统数据梳理的过程，过程中发现的问题会反馈给业务部门，同时还要制定统一的质量和稽核标准，就好比给每个业务系统数据生成线上增加一个质量监管员。

四、大数据分析中针对日志分析的框架如何选型?

elk 常用组件, 上层业务封装还需要求其他组件完成

日志分析 elk + redis + mysql 热点数据 , 热点分析

等等, 看你的业务是什么模式和开发人员偏好

现在免费且主流的均已采用Elastic公司的ELK框架，均为轻量级组件，且简单易用，从采集到界面展示几乎用不了多少时间即可搭建完毕，Kibana界面效果优异，包含地图、报表、检索、报警、监控等众多功能。

五、请问在大数据平台搭建过后，大数据平台的运维监控主要关注哪些?

大数据平台的运维监控主要包括硬件和软件层面，具体如下：

1、主机、网络、硬盘、内存、CPU等资源。

在拥有几十台以上的集群环境中，大量的数据计算对硬件尤其是硬盘的损耗是较大的，在大量计算中，网络也往往会成为一个瓶颈，这些都需要时刻关注。

2、平台层面

主要监控平台各个组件的状态、负载情况，有异常及时报警。

3、用户层面

大数据平台建设是为了服务公司内部广大用户的，所以资源既是共享的，又需要是隔离的，所以需要对用户对平台资源的使用情况做好监控，及时发现异常使用情况，防止对其他用户产生不良影响，影响正常业务开展。

大数据平台搭建后，运维监控的主要内容包括

1、分布式架构的底层虚拟机的运行情况(CPU、内存、网络、硬盘等)

2、各个组件(HDFS 、MR、 SPark 、Hive 、Hbase、 IMpla、FLume、 Spooq等)的运行状态和告警信息

六、数据量大，数据类型繁杂的情况下，如何做性能保障?

如何保障大数据平台的处理性能，关键还是看应用场景和业务需求，不是每种业务都需要高性能。

1、在类OLTP场景下，大数据平台有像HBase一样的组件，保证数据读写具有极高的性能和吞吐量。

2、在OLAP场景下，大数据平台有像Impala、Kudu、Kylin、Druid这样引擎，通过内存或预计算的方式保证查询性能。

3、在离线分析场景，有像Hive、Spark、Mapreduce这样的引擎，分布式处理海量数据，在这种场景下，性能和响应时间已无法做到保证。

1、大数据的底层全部都是分布式架构，分布式架构具有很强的横向扩展能力，而且是使用廉价的PC服务器即可组件分布式架构，只有增加服务器数据，性能也可以横向扩展，

2、另外大数据平台在数据处理方面也均是采用分布式处理技术(例如 MR、 Hive、 Hbase 、 HDFS)

3、另外还有一些是基于内存的数据计算和处理架构Spark技术，大数据平台下对性能的要求没有和传统的交互式的响应不太一样，大数据分为实时和离线计算，实时计算要求响应时

间，离线计算对于响应时间没有太高的要求。

别盲目追风

关注

2
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。