自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(4)
  • 收藏
  • 关注

原创 Structured Streaming基础入门

Structured Streaming1. 回顾和展望1.1. Spark 编程模型的进化过程RDDrdd.flatMap(_.split(" ")) .map((_, 1)) .reduceByKey(_ + _) .collect针对自定义数据对象进行处理, 可以处理任意类型的对象, 比较符合面向对象RDD 无法感知到数据的结构, 无法针对数据结构进行编程...

2020-03-13 18:59:06 839

原创 DataFrameReader、DataFrameWrite、Spark整合Hive、JDBC

数据读写初识 DataFrameReaderSparkSQL 的一个非常重要的目标就是完善数据读取, 所以 SparkSQL 中增加了一个新的框架, 专门用于读取外部数据源, 叫做 DataFrameReaderdef reader1(): Unit = { // 1. 创建 SparkSession val spark = SparkSession.builder() ...

2020-03-12 22:05:27 1103

原创 Dataset基本操作、Column对象、缺失值处理

DataSet(DataFrame)的基本操作有类型操作转换flatMap通过 flatMap 可以将一条数据转为一个数组, 后再展开这个数组放入 Datasetimport spark.implicits._val ds = Seq("hello world", "hello spark").toDS()ds.flatMap( _.split(" ") ).show()map...

2020-03-12 17:09:05 2645

原创 Spark聚合、连接、窗口函数

聚合groupBygroupBy 算子会按照列将 Dataset 分组, 并返回一个 RelationalGroupedDataset 对象, 通过 RelationalGroupedDataset 可以对分组进行聚合// 1 准备数据val spark = SparkSession.builder() .master("local[6]") .appName("aggre...

2020-03-12 13:47:40 574

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除