Spark
文章平均质量分 92
2NaCl
主攻Java后端开发与云计算Paas平台、离线大数据平台相关
展开
-
Spark-Core应用详解之基础篇
Spark-Core应用解析 一、RDD 1.什么是RDD RDD,是spark为了简化用户的使用,对所有的底层数据进行的抽象,以面向对象的方式提供了RDD的很多方法,通过这些方法来对RDD进行内部的计算额输出。 RDD:弹性分布式数据集。 2.RDD的特性 1.不可变,对于所有的RDD操作都将产生一个新的RDD。 2.可分区,RDD是通过将数据进行分区保存的。 3.弹性: <1>存原创 2018-12-31 14:39:48 · 850 阅读 · 0 评论 -
Spark-Core应用详解之高级篇
原创 2019-01-06 16:00:16 · 1481 阅读 · 1 评论 -
Spark-SQL应用解析
一、概述 sparksql是spark的一个模板,可以和RDD进行混合编程、支持标准的数据源、可以集成和替代Hive、可以提供JDBC,ODBC的服务器功能。 SparkSQL里面有两个数据抽象,DataSet和DataFrame DataFrame SQL 操作主要涉及到表的操作,表是数据和Schema的组成,所以可以认为DataFrame就是一张表=RDD+Schema DataFram...原创 2019-01-18 10:01:46 · 333 阅读 · 0 评论 -
SparkStreaming应用解析(一)
一、原创 2019-02-06 22:50:58 · 3548 阅读 · 0 评论 -
SparkStreaming应用解析(二)
三、SparkStreaming与Kafka的连接 在写程序之前,我们先添加一个依赖 <!-- https://mvnrepository.com/artifact/org.apache.spark/spark-streaming-kafka --> <dependency> &原创 2019-02-07 17:17:40 · 280 阅读 · 0 评论 -
SparkStreaming 4个实用Demo的详细记录
文章目录目标一:updateStateByKey算子的使用 本文将会介绍四个Demo案例,分别是updateStateByKey算子的使用,SparkStreaming写入mysql,窗口函数的使用和黑名单的过滤,然后会将代码分享到github 目标一:updateStateByKey算子的使用 首先我们先看看官网对于这个算子的介绍: 大意是,此算子可以在保持任意状态下去更新信息,但是有两个要...原创 2019-08-13 14:24:38 · 865 阅读 · 0 评论