大数据平台架构技术选型与场景运用

本文探讨大数据平台在工程方面的应用,包括数据源、数据采集与存储、技术选型以及场景运用。数据源分为内部和外部,结构化和非结构化,以及不可变和可变数据。数据存储依据数据源类型、格式和规模选择合适的技术,如MongoDB、HDFS和ElasticSearch。数据处理涵盖查询检索、数据挖掘和深度学习,常用工具包括SQL、流式处理和机器学习。文章提供了一个全面的大数据平台架构示例。
摘要由CSDN通过智能技术生成

一、大数据平台

大数据在工作中的应用有三种:

与业务相关,比如用户画像、风险控制等;

与决策相关,数据科学的领域,了解统计学、算法,这是数据科学家的范畴;

与工程相关,如何实施、如何实现、解决什么业务问题,这是数据工程师的工作。

数据工程师在业务和数据科学家之间搭建起实践的桥梁。本文要分享的大数据平台架构技术选型及场景运用偏向于工程方面。

对大数据以及人工智能概念都是模糊不清的,该按照什么线路去学习,学完往哪方面发展,想深入了解,想学习的同学欢迎加入大数据学习qq群:458345782,有大量干货(零基础以及进阶的经典实战)分享给大家,并且有清华大学毕业的资深大数据讲师给大家免费授课,给大家分享目前国内最完整的大数据高端实战实用学习流程体系 。从java和linux入手,其后逐步的深入到HADOOP-hive-oozie-web-flume-python-hbase-kafka-scala-SPARK等相关知识一一分享!


 

图片描述

 

如图所示,大数据平台第一个要素就是数据源,我们要处理的数据源往往是在业务系统上,数据分析的时候可能不会直接对业务的数据源进行处理,而是先经过数据采集、数据存储,之后才是数据分析和数据处理。

从整个大的生态圈可以看出,要完成数据工程需要大量的资源;数据量很大需要集群;要控制和协调这些资源需要监控和协调分派;面对大规模的数据怎样部署更方便更容易;还牵扯到日志、安全、还可能要和云端结合起来,这些都是大数据圈的边缘,同样都很重要。

二、数据源的特点

 

图片描述

 

数据源的特点决定数据采集与数据存储的技术选型࿰

  • 5
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值