PySpark实战指南(学习笔记)

第1章 了解Spark

1.1 什么是Apache Spark
1.2 Spark作业和API
1.3 Spark 2.0的架构
1.4 小结

第2章 弹性分布式数据集

2.1 RDD的内部运行方式
2.2 创建RDD
2.3 全局作用域和局部作用域
2.4 转换
2.5 操作
2.6 小结

第3章 DataFrame

spark.DataFrame存储到hive

spark_df = spark.createDataFrame(data)
hive_database = 'target_database'
hive_table = 'target_tablename'
spark_df.write.format("hive").mode("overwrite").saveAsTable('{}.{}'.format(hive_database,hive_table))
3.1 Python到RDD之间的通信
3.2 Catalyst优化器刷新
3.3 利用DataFrame加速PySpark
3.4 创建DataFrame
3.5 简单的DataFrame查询
3.6 RDD的交互操作
3.7 利用DataFrame API查询
3.8 利用SQL查询
3.9 DataFrame场景——实时飞行性能
3.10 Spark数据集(Dataset)API
3.11 小结

第4章 准备数据建模

4.1 检查重复数据、未观测数据和异常数据(离群值)
4.2 熟悉你的数据
4.3 可视化
4.4 小结

第5章 MLlib介绍

5.1 包概述
5.2 加载和转换数据
5.3 了解你的数据
5.4 创建最终数据集
5.5 预测婴儿生存机会
5.6 小结

第6章 ML包介绍

6.1 包的概述
6.2 使用ML预测婴儿生存几率
6.3 超参调优
6.4 使用PySpark ML的其他功能
6.5 小结

第7章 GraphFrames

7.1 GraphFrames介绍
7.2 安装GraphFrames
7.3 准备你的航班数据集
7.4 构建图形
7.5 执行简单查询
7.6 理解节点的度
7.7 确定最大的中转机场
7.8 理解Motif
7.9 使用PageRank确定机场排名
7.10 确定最受欢迎的直飞航班
7.11 使用广度优先搜索
7.12 使用D3将航班可视化
7.13 小结

第8章 TensorFrames

8.1 深度学习是什么
8.2 TensorFlow是什么
8.3 TensorFrames介绍
8.4 TensorFrames快速入门
8.5 小结

第9章 使用Blaze实现混合持久化

9.1 安装Blaze
9.2 混合持久化
9.3 抽象数据
9.4 数据操作
9.5 小结

第10章 结构化流

10.1 什么是Spark Streaming
10.2 为什么需要Spark Streaming
10.3 Spark Streaming应用程序数据流是什么
10.4 使用DStream简化Streaming应用程序
10.5 全局聚合快速入门
10.6 结构化流介绍
10.7 小结

第11章 打包Spark应用程序

11.1 spark-submit命令
11.2 以编程方式部署应用程序
11.3 Databricks作业
11.4 小结
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值