大数据平台应用 17 个知识点汇总

最新推荐文章于 2024-07-27 10:13:06 发布

fenghunyihao

最新推荐文章于 2024-07-27 10:13:06 发布

阅读量145

点赞数

文章标签：大数据 hadoop 数据库

本文链接：https://blog.csdn.net/fenghunyihao/article/details/130528646

版权

一、大数据中的数据仓库和Mpp数据库如何选型?

在Hadoop平台中，一般大家都把hive当做数据仓库的一种选择，而Mpp数据库的典型代表就是impala，presto。Mpp架构的数据库主要用于即席查询场景，暨对数据查询效率有较高要求的场景，而对数据仓库的查询效率要求无法做大MPP那样，所以更多地适用与离线分析场景。

Hadoop已经是大数据平台的实时标准，其中Hadoop生态中有数据仓库Hive，可以作为大数据平台的标准数据仓库，对于面向应用的MPP数据库，可以选择MYCAT(mySql的分布式架构)或是impala(基于Hive和Hbase)，包括对称式和非对称式两种分布式模式

二、大数据分析中的实时推荐是如何实现的?

实时推荐需要使用实时处理框架结合推荐算法，从而做到对数据的实时处理和推荐。实时处理框架有Storm、Flink、SparkStreaming，组件可以对接Kafka，获取实时流数据，在实时框架内部实现对数据的处理过程。

1、实时推荐需要借助实时计算框架例如Spark或是Strom技术，

2、数据采集采用Flume+Kafka作为数据缓存和分发作用

3、同时还需要有非常适合的实时推荐算法，例如基于用户画像的实时推荐，或是基于用户行为的实施推荐、或是对商品相识度的实施推荐等不同的算法

三、数据治理有何高效的处理方法或工具?

数据治理没有具体的工具和方法，这是一项浩大的工程，可能牵扯到每个部门，既有技术人员参与，又要有业务人员参与，关键时刻还要有领导进行决策。每个公司的数据情况不同，处理方法也不尽相同，基本的方法是有的，暨通过对数据的梳理(元数据、主数据)，发现数据质量问题，再通过质量标准或组织协调的方式，对数据进行标准化处理的。

数据治理是一项人力和辛苦活，没有捷径和什么有效的工具，而且在一个大数据项目中，数据治理是非常重要的一个环节，因为只有数据质量满足前端应用需求，才有可能挖掘和分析出准确的结果。

具体数据处理方法还需要看实际业务情况，例如数据库、数据类型、数据规模等

数据治理的过程是一个对业务系统数据梳理的过程，过程中发现的问题会反馈给业务部门，同时还要制定统一的质量和稽核标准，就好比给每个业务系统数据生成线上增加一个质量监管员。

四、大数据分析中针对日志分析的框架如何选型?

elk 常用组件, 上层业务封装还需要求其他组件完成

日志分析 elk + redis + mysql 热点数据 , 热点分析

等等, 看你的业务是什么模式和开发人员偏好

现在免费且主流的均已采用Elastic公司的ELK框架，均为轻量级组件，且简单易用，从采集到界面展示几乎用不了多少时间即可搭建完毕，Kibana界面效果优异，包含地图、报表、检索、报警、监控等众多功能。

五、请问在大数据平台搭建过后，大数据平台的运维监控主要关注哪些?

大数据平台的运维监控

最低0.47元/天解锁文章

fenghunyihao

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
1
评论
大数据平台应用 17 个知识点汇总

SPark体系中的 Spark Streaming严格意义上属于批处理计算框架，准实时，基于内存的计算框架，性能可以达到秒级，大数据除了实时计算之外，还包括了离线批处理、交互式查询等业务功能，而且实时计算中，可能还会牵扯到高延迟批处理、交互式查询等功能，就应该首选Spark生态，用Spark Core开发离线批处理，用Spark SQL开发交互式查询，用Spark Streaming开发实时计算，三者可以无缝整合，给系统提供非常高的可扩展性。只有高质量的数据才会有分析的价值，所以预处理过程显得尤为重要。
复制链接

扫一扫