一份阿里、百度等一线互联网大厂都用的Spark大数据分析实战文档

初识Spark

Spark是基于内存计算的大数据并行计算框架,因为它基于内存计算,所以提高了在大数据环境下数据处理的实时性,同时保证了高容错性和高可伸缩性,允许用户将Spark部署在大量廉价硬件之上,形成集群。

第1章 Spark简介

  1. 初识Spark
  2. Spark生态系统BDA
  3. Spark架构与运行逻辑
  4. 弹性分布式数据集
  5. RDD简介
  6. RDD算子分类

一份阿里、百度等一线互联网大厂都用的Spark大数据分析实战文档

 

一份阿里、百度等一线互联网大厂都用的Spark大数据分析实战文档

 

由于文档内容过多,只截取了部分知识点,每个知识点都有更细化的内容!!

文档资料免费获取方式:关注我 + 转发文章,后台私信【资料】即可免费获取

第2章Spark开发与环境配置

  1. Spark 应用开发环境配置
  2. 使用 Inelij开发Spark
  3. 使用SparkShell进行交互式
  4. 远程调试Spark程序
  5. Spark 编译
  6. 配置Spark源码阅读环境

一份阿里、百度等一线互联网大厂都用的Spark大数据分析实战文档

 

第3章 BDAS 简介

  1. SQL on Spark
  2. 为什么使用 Spark
  3. Spark SQL架构分析
  4. Spark Streaming
  5. Spark Streaming简介
  6. Spark Streaming架构
  7. Spark Streaming原理剖析
  8. GraphX
  9. GrnphX 简介
  10. GrnphX 的使用简介
  11. GraphX 体系结构
  12. MLlib
  13. MLib 简介
  14. MLlib 中的聚类和分类

 

一份阿里、百度等一线互联网大厂都用的Spark大数据分析实战文档

 

 

第4章 Lamda架构日志分析

  1. 日志分析概述
  2. 日 志分析指标
  3. Lamda架构
  4. 构建日志分析数据流水线
  5. 用Flume进行日志采集
  6. 用Kafka将日志汇总
  7. 用Spark Streaming进行实时
  8. 日志分
  9. Spark SQL离线日志分析
  10. 用Flask 将日志KPI
  11. 可视化

一份阿里、百度等一线互联网大厂都用的Spark大数据分析实战文档

 

第5章基于云平台和用户日志的推荐系统

第6章Twitter 情感分析

一份阿里、百度等一线互联网大厂都用的Spark大数据分析实战文档

 

第7章热点新闻分析系统

  1. 新闻数据分析
  2. 系统架构
  3. 爬 虫抓取网络信息
  4. Scrapy 简介
  5. 创建基于 Scrapy的新闻
  6. 爬虫
  7. 爬虫分 布式化
  8. 新闻文本 数据预处理
  9. 新闻聚类
  10. 数据转换为向量 (向量
  11. 空间模型VSM)
  12. 新闻聚类
  13. 词向量同 义词查询
  14. 实时热点新闻分析
  15. Spark Elastic Search构建
  16. 全文检索引擎
  17. 部署 Elastic Search
  18. 用Elastic Search索引
  19. MongoDB数据:
  20. 通过Elastic Search检索
  21. 数据

一份阿里、百度等一线互联网大厂都用的Spark大数据分析实战文档

 

 

一份阿里、百度等一线互联网大厂都用的Spark大数据分析实战文档

 

 

第8章 构建分布式的协同过滤推荐系统

  1. 协同过滤介绍
  2. 基于用户的协同过滤算法
  3. 基于项目的协同过滤算法
  4. 基于模型的协同过滤推荐
  5. 基于 Spark的矩阵运算实现
  6. 协同过滤算法
  7. Spark 中的矩阵类型
  8. Spark 中的矩阵运算
  9. 实现User-based协同过滤的
  10. 实现ltem-based协同过滤的
  11. 基于奇异值分解实现
  12. based协同过滤的示例
  13. 基于Spark的MLlib实现
  14. 协同过滤算法
  15. MLIib 的推荐算法工具
  16. MLib 协同过滤推荐示例..
  17. 案例: 使用MLlib协同过滤
  18. 实现电影推荐
  19. MovieLens 数据集
  20. 确定最佳的协同过滤模型

一份阿里、百度等一线互联网大厂都用的Spark大数据分析实战文档

 

 

第9章基于Spark的社交网络分析

第10章基于Spark的大规模新闻主题分析

一份阿里、百度等一线互联网大厂都用的Spark大数据分析实战文档

 

 

第11章构建分布式的搜索引擎

  1. 引擎简介
  2. 搜索排序概述
  3. 查询无关模型PageRank ....
  4. 基于Spark的分布式PageRank
  5. PageRank 的MapReduce
  6. Spark 的分布式图模型
  7. 基于GraphX的PagcRank
  8. 案例: GoogleWeb Graph的
  9. PageRank计算
  10. 查询相关模型
  11. Ranking SVM
  12. Spark中支持向量机的
  13. Spark 中的支持向量机
  14. 使用Spark测试数据演示
  15. 支持向量机的训练
  16. 案例:基于MSLR数据集的
  17. 查询排序
  18.  
  19. 数据集介绍
  20. 基于 Spurk的Ranking
  21. SVM实现

一份阿里、百度等一线互联网大厂都用的Spark大数据分析实战文档

 

 

最后

由于文档内容过多,只截取了部分知识点,每个知识点都有更细化的内容!!

小编可以把这份“Spark大数据分析实战文档”免费分享给大家。

文档资料免费获取方式:关注我 + 转发文章,后台私信【资料】即可免费获取

 

一份阿里、百度等一线互联网大厂都用的Spark大数据分析实战文档

 

一份阿里、百度等一线互联网大厂都用的Spark大数据分析实战文档

 

一份阿里、百度等一线互联网大厂都用的Spark大数据分析实战文档

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值