Spark编程基础-课堂笔记(一)

本文主要对厦门大学《spark》编程基础课程知识点进行记录

大数据4V特性

  • 大量化 Volume
  • 多样化 Variety:数据不只限于结构化数据,目前非结构化数据居多
  • 处理速度快 Velocity:有实时响应的需求
  • 价值密度低 Value

大数据关键技术

  • 数据采集:爬虫工具/ETL工具(抽取 转换 加载)
  • 数据存储与管理:分布式文件系统/分布式数据库/NoSQL数据库
  • 数据处理与分析:分布式架构(解决数据分布式计算)
  • 数据隐私与安全

大数据计算模式

  • 批处理计算 :一次性处理大量数据,无法实时响应
    面向批处理的计算框架:MapReduce/Spark

  • 流计算:数据源源不断到达,但是每次量不大,要求ms/s级响应
    流计算框架:Storm( ms级响应 )/S4/Flume

  • 图计算:社交网络类型数据等
    图计算框架:Pregel

  • 查询分析计算:通过写sql语句查询
    查询分析计算框架:Hive/Dremel

代表性大数据技术

Hadoop

在这里插入图片描述
hadoop里面两大核心:分布式存储框架( HDFS ) & 分布式处理框架( MapReduce )。

HDFS负责海量分布式文件的存储YARN负责为上层的计算框架提供资源调度与管理服务MapReduce负责完成计算任务Hive负责在一个时间维度上保存连续数据,建立在HDFS之上的,可以把Hive看成是一个接口,将查询时使用的SQL语句自动转换为对HDFS的查询分析,Pig可以做数据清洗,转换以及加载,在我们把数据保存到数据仓库之前,要对数据做清洗转换,Mahout实现了常用的数据挖掘算法HBase底层数据也是借助HDFS进行保存的,Flume负责日志采集分析Sqoop负责完成Hadoop系统组件之间的互通

在这里插入图片描述

spark

在这里插入图片描述
Spark Core完成RDD应用开发;Spark SQL分析关系数据;Spark Streaming进行流计算;MLlib是机器学习算法库;GraphX编写图计算应用程序。

  • 多种数据集操作类型
  • 编程模型更灵活
  • 提供了内存计算
  • 基于DAG的任务调度执行机制

( 与hadoop的分布式存储框架结合 )
在这里插入图片描述

Flink

Flink和Spark一样,都属于计算框架。
在这里插入图片描述

参考资料:《厦门大学-Spark编程基础(MOOC)》

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值