大数据实训

本文介绍了大数据实训中的工具和架构,包括vmware、Linux、Hadoop、Hive、Spark等,并探讨了离线批处理和实时流计算的数据来源、缓冲、存储、分析及展示。重点涉及数据采集工具如MR、Spark、Flink,以及实时数据存储如Redis、HBase和流处理框架如Spark Streaming、Flink。
摘要由CSDN通过智能技术生成

工具

vmware15
Linux centos7.5
Hadhoop3.2.1
Hive3.1.2
SpringBoot
Echart
zk3.4.5

架构

  1. 编码[内存]
  2. 磁盘(textfile xml json)
  3. RDBMS(mysql oracle)
  4. 分布式、集群 (nosql)
  5. Hadhoop
    在这里插入图片描述

数仓架构

离线:批计算——攒了一批数据、计算一次

  1. 数据来源
    (1)业务数据【RDBMS】
    (2)行为数据【行为日志】
    (3)爬虫数据【api】
    (4)第三方交易【api】
  2. 数据采集
    (1)mr
    (2)spark
    (3)flink
    3.数仓搭建
    (1)Hive
    4.业务流程
    在这里插入图片描述

实时:流计算——来一次计算一次
1.数据来源
(1)业务数据【

  • 2
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 6
    评论
评论 6
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值