读《Spark The Definitive Guide》
lzw2016
年轻出来浪!
展开
-
《Spark The Definitive Guide》Chapter 5:基本结构化API操作
Chapter 5:基本结构化API操作 前言 见《Spark 权威指南》学习计划 Schemas (模式) 我这里使用的是书附带的数据源中的 2015-summary.csv 数据 scala> val df = spark.read.format("csv").option("header","true").option("inferSchema","true").load("data/...原创 2019-05-24 21:10:15 · 484 阅读 · 0 评论 -
《Spark The Definitive Guide》Chapter 6:处理不同类型的数据
文章目录Chapter 6:处理不同类型的数据从哪里找到适合的方法处理布尔类型数据处理数值型数据处理字符串型数据处理日期和时间型数据处理 null 数据处理复杂的数据类型处理 Structs 的方法处理 Arrays 的方法处理 Maps 的方法处理 JSON 的方法自定义函数(UDF)使用 Chapter 6:处理不同类型的数据 这一章如题所示讲的就是如何使用DataFrame相关方法处理不同类...原创 2019-06-07 10:14:37 · 380 阅读 · 0 评论 -
《Spark: The Definitive Guide 》Chapter 7:聚合操作
文章目录Chapter 7:聚合操作Group分组和聚合函数聚合函数count 和 countDistinctapprox_count_distinctfirst 和 lastmin 和 maxsum 和 sumDistinctavg 和 mean方差和标准差偏度和峰度协方差和相关性复杂数据类型的聚合在表达式中使用分组(Grouping with Expressions)通过Maps映射使用分组(...原创 2019-07-04 21:20:29 · 386 阅读 · 1 评论 -
《Spark: The Definitive Guide 》Spark权威指南学习计划
Spark-The-Definitive-Guide-Learning 《Spark: The Definitive Guide Big Data Processing Made Simple》学习记录 文章目录Spark-The-Definitive-Guide-Learning前言目录其他 前言 本书出自OReilly的《Spark: The Definitive Guide Big Data...原创 2019-07-04 21:22:43 · 5524 阅读 · 5 评论