Spark
文章平均质量分 92
2NaCl
主攻Java后端开发与云计算Paas平台、离线大数据平台相关
展开
-
Spark-Core应用详解之基础篇
Spark-Core应用解析一、RDD1.什么是RDDRDD,是spark为了简化用户的使用,对所有的底层数据进行的抽象,以面向对象的方式提供了RDD的很多方法,通过这些方法来对RDD进行内部的计算额输出。RDD:弹性分布式数据集。2.RDD的特性1.不可变,对于所有的RDD操作都将产生一个新的RDD。2.可分区,RDD是通过将数据进行分区保存的。3.弹性:<1>存原创 2018-12-31 14:39:48 · 851 阅读 · 0 评论 -
Spark-Core应用详解之高级篇
原创 2019-01-06 16:00:16 · 1482 阅读 · 1 评论 -
Spark-SQL应用解析
一、概述sparksql是spark的一个模板,可以和RDD进行混合编程、支持标准的数据源、可以集成和替代Hive、可以提供JDBC,ODBC的服务器功能。SparkSQL里面有两个数据抽象,DataSet和DataFrameDataFrameSQL 操作主要涉及到表的操作,表是数据和Schema的组成,所以可以认为DataFrame就是一张表=RDD+SchemaDataFram...原创 2019-01-18 10:01:46 · 334 阅读 · 0 评论 -
SparkStreaming应用解析(一)
一、原创 2019-02-06 22:50:58 · 3551 阅读 · 0 评论 -
SparkStreaming应用解析(二)
三、SparkStreaming与Kafka的连接在写程序之前,我们先添加一个依赖<!-- https://mvnrepository.com/artifact/org.apache.spark/spark-streaming-kafka --> <dependency> &原创 2019-02-07 17:17:40 · 282 阅读 · 0 评论 -
SparkStreaming 4个实用Demo的详细记录
文章目录目标一:updateStateByKey算子的使用本文将会介绍四个Demo案例,分别是updateStateByKey算子的使用,SparkStreaming写入mysql,窗口函数的使用和黑名单的过滤,然后会将代码分享到github目标一:updateStateByKey算子的使用首先我们先看看官网对于这个算子的介绍:大意是,此算子可以在保持任意状态下去更新信息,但是有两个要...原创 2019-08-13 14:24:38 · 868 阅读 · 0 评论