2020年重磅喜讯！热烈祝贺王家林大咖人工智能及大数据领域经典著作《Apache Spark+AI全息代码解密》清华大学出版社发行上市!

置顶段智华

于 2020-12-12 09:52:10 发布

阅读量1.3k

点赞数 4

分类专栏： Spark+AI业界动态资讯

热烈祝贺Gavin大咖2024年北京航空航天大学两本新书《Transformer&ChatGPT解密：原理、源码及案例》、《Transformer& Rasa 解密: 原理、源码及案例》出版发行

本文链接：https://blog.csdn.net/duan_zhihua/article/details/111056836

版权

Spark+AI业界动态资讯专栏收录该内容

38 篇文章 5 订阅

订阅专栏

2020年重磅喜讯！热烈祝贺王家林大咖人工智能及大数据领域经典著作《Apache Spark+AI全息代码解密》清华大学出版社发行上市!

全息代码解密

Apache Spark+AI全息代码解密（京东套装共2册）
在这里插入图片描述

你需要的Apache Spark和AI技能都在这里！全程案例驱动无痛学习，动手创造自己AI框架，解密Alluxio, 抽丝剥茧学习Spark内核所有关键源码及实践优化的一切秘密
https://item.jd.com/13029086.html

在这里插入图片描述

编辑推荐

基于z新的Spark2.4.X版本，分为内核解密篇，商业案例篇，性能调优篇和Spark+AI解密篇，共32章，学习过程中有任何疑问，可加入QQ群418110145，有专业人员答疑解惑。
全息代码讲解深度学习框架开发，
案例式讲解机器学习案例，
透彻剖析开源AI和大数据存储编排平台Alluxio

内容简介

《企业级AI技术内幕：深度学习框架开发+机器学习案例实战+Alluxio解密》分为盘古人工智能框架开发专题篇、机器学习案例实战篇、分布式内存管理Alluxio解密篇，分别对人工智能开发框架、机器学习案例及Alluxio系统进行透彻解析。
　　盘古人工智能框架开发专题篇，通过代码讲解多层次神经网络、前向传播算法、反向传播算法、损失度计算及可视化、自适应学习和特征归一化等内容。
　　机器学习案例实战篇，选取机器学习中具代表性的经典案例，透彻讲解机器学习数据预处理、简单线性回归、多元线性回归、多项式回归、支持向量回归、决策树回归、随机森林回归等回归算法，逻辑回归、k近邻算法、支持向量机、朴素贝叶斯、决策树分类、随机森林分类等分类算法、ｋ均值聚类、层次聚类等聚类算法，以及关联分析算法，并对回归模型、分类模型进行性能评估。
　　分布式内存管理Alluxio解密篇，详细讲解Alluxio架构、部署、底层存储及计算应用、基本用法、运行维护等内容。

《Spark大数据商业实战三部曲：内核解密商业案例性能调优（第2版）》基于 Spark 2.4.X版本，以 Spark商业案例实战和 Spark在生产环境下几乎所有类型的性能调优为核心，以 Spark内核解密为基石，对企业生产环境下的 Spark商业案例与性能调优抽丝剥茧地进行剖析。全书共分 4篇，内核解密篇基于 Spark源码，从一个实战案例入手，循序渐进地全面解析 Spark 2.4.X版本的新特性及 Spark内核源码；商业案例篇选取 Spark开发中具代表性的经典学习案例，在案例中综合介绍 Spark的大数据技术；性能调优篇覆盖 Spark在生产环境下的所有调优技术；Spark+AI解密篇讲解深度学习实践、 Spark+PyTorch案例实战、Spark+TensorFlow实战以及 Spark上的深度学习内核解密。
　　该书适合所有 Spark学习者和从业人员使用。对于有分布式计算框架应用经验的人员，该书也可作为 Spark高手修炼的参考用书。该书还适合作为高等院校的大数据课程教材。

作者简介

王家林，Apache Spark执牛耳者，现工作于硅谷的AI实验室，专注于NLP框架。超过20本Spark、AI、Android书籍作者，Toastmasters International Division Director GRE博士入学考试连续两次满分获得者
　　
段智华，就职于中国电信股份有限公司上海分公司，系统架构师，CSDN博客专家，专注于Spark大数据技术研发及推广，跟随Spark核心源码技术的发展，深入研究Spark 2.1.1版本及Spark 2.2.0版本的源码优化，对Spark大数据处理、机器学习等技术有丰富的实战经验和浓厚兴趣。

本书目录

《Spark大数据商业实战三部曲：内核解密商业案例性能调优（第2版）》

第1篇内核解密篇
第1章电光石火间体验Spark 2．4 开发实战
1．1 通过RDD实战电影点评系统入门及源码阅读
1．1．1 Spark核心概念图解
1．1．2 通过RDD实战电影点评系统案例
1．2 通过DataFrame和DataSet实战电影点评系统
1．2．1 通过DataFrame实战电影点评系统案例
1．2．2 通过DataSet实战电影点评系统案例
1．3 Spark2．4 源码阅读环境搭建及源码阅读体验
第2章 Spark 2．4 技术及原理
2．1 Spark 2．4 综述
2．1．1 连续应用程序
2．1．2 新的API
2．2 Spark 2．4 Core
2．2．1 第二代Tungsten引擎
2．2．2 SparkSession
2．2．3 累加器API
2．3 Spark 2．4 SQL
2．3．1 Spark SQL
2．3．2 DataFrame和Dataset API
2．3．3 Timed Window
2．4 Spark 2．4 Streaming
2．4．1 Structured Streaming
2．4．2 增量输出模式
2．5 Spark 2．4 MLlib
2．5．1 基于DataFrame的Machine Learning API
2．5．2 R的分布式算法
2．6 Spark 2．4 GraphX
第3章 Spark的灵魂：RDD和DataSet
3．1 为什么说RDD和DataSet是Spark的灵魂
3．1．1 RDD的定义及五大特性剖析
3．1．2 DataSet的定义及内部机制剖析
3．2 RDD弹性特性7个方面解析
3．3 RDD依赖关系
3．3．1 窄依赖解析
3．3．2 宽依赖解析
3．4 解析Spark中的DAG逻辑视图
3．4．1 DAG生成的机制
3．4．2 DAG逻辑视图解析
3．5 RDD内部的计算机制
3．5．1 Task解析
3．5．2 计算过程深度解析
3．6 SparkRDD容错原理及其四大核心要点解析
3．6．1 Spark RDD容错原理
3．6．2 RDD容错的四大核心要点
3．7 SparkRDD中Runtime流程解析
3．7．1 Runtime架构图
3．7．2 生命周期
3．8 通过WordCount实战解析Spark RDD内部机制
3．8．1 Spark WordCount动手实践
3．8．2 解析RDD生成的内部机制
3．9 基于DataSet的代码如何转化为RDD
第4章 Spark Driver启动内幕剖析
4．1 Spark Driver Program剖析
4．1．1 Spark Driver Program
4．1．2 SparkContext深度剖析
4．1．3 SparkContext源码解析
4．2 DAGScheduler解析
4．2．1 DAG的定义
4．2．2 DAG的实例化
4．2．3 DAGScheduler划分Stage的原理
4．2．4 DAGScheduler划分Stage的具体算法
4．2．5 Stage内部Task获取最佳位置的算法
4．3 TaskScheduler解析
4．3．1 TaskScheduler原理剖析
4．3．2 TaskScheduler源码解析
4．4 SchedulerBackend解析
4．4．1 SchedulerBackend原理剖析
4．4．2 SchedulerBackend源码解析
4．4．3 Spark程序的注册机制
……

第2篇商业案例篇
第3篇性能调优篇
第4篇 Spark+AI解密篇

《企业级AI技术内幕：深度学习框架开发+机器学习案例实战+Alluxio解密》

盘古人工智能框架开发专题篇
第1章导论：为什么人工智能是必然的未来
1．1 为什么一定需要人工智能
1．2 人工智能为何如此强大
1．3 学习人工智能的正道
1．4 人工智能、机器学习、深度学习三者之间的关系
1．5 人工智能的十大经典应用场景
1．6 人工智能在海量数据处理中不可替代的原因
1．7 本书开发环境的安装
第2章盘古人工智能框架多层次神经网络的实现
2．1 盘古人工智能框架
2．2 实现神经网络的节点结构
2．3 实现神经网络层之间节点的连接
2．4 如何初始化神经网络的权重
2．5 实现多个隐藏层
第3章盘古人工智能框架的前向传播功能
3．1 前向传播功能
3．1．1 从TensorFlow的可视化运行过程理解前向传播功能
3．1．2 从架构层面理解前向传播功能
3．1．3 理解前向传播原理
3．2 在每个节点上增加数据的输入和计算结果
3．3 实现前向传播算法
3．4 使用Sigmoid函数作为激活函数
3．5 测试前向传播算法并分析计算结果
第4章盘古人工智能框架的反向传播功能
4．1 深度学习是如何学习的
4．2 实现反向传播算法
4．3 反向传播算法测试及分析计算结果
第5章盘古人工智能框架的损失度计算及其可视化
5．1 关于损失度的思考——所有人工智能框架终身的魔咒
5．2 编码实现损失度并进行测试
5．3 损失度可视化运行结果
第6章通过特征归一化和自适应学习优化盘古人工智能框架
6．1 盘古人工智能框架性能测试及问题剖析
6．2 使用特征归一化进行性能优化
6．3 使用自适应学习进行性能优化
第7章盘古人工智能框架实现方法大总结
7．1 盘古人工智能框架性能测试
7．2 神经网络实现及和TensorFlow的对比
7．3 前向传播算法实现及其和TensorFlow的算法对比
7．4 反向传播算法实现及与TensorFlow的对比
7．5 损失度计算实现与TensorFlow的对比
7．6 人工智能盘古框架源代码
第8章使用矩阵的方式编写人工智能框架
8．1 使用矩阵编写人工智能框架
8．2 测试及分析计算结果
8．3 对使用矩阵方式编写的人工智能框架进行优化
第9章使用四种性能优化矩阵编写人工智能框架
9．1 梯度下降陷阱
9．2 增加和调整alpha参数
9．3 人工智能框架的改进优化
第10章人工智能及感知元解密
10．1 人工智能是什么，怎么做，前景为什么好
10．2 计算机视觉面临的困境及突破
10．3 感知器解密
10．4 计算机图像识别
第1 1章神经网络结构及Sigmoid函数
11．1 神经网络实现与非门
11．2 神经网络为什么能够完成各类计算
11．3 神经网络的结构解密．：
11．4 Sigmoid函数背后的设计和实现密码
11．5 Sigmoid函数的弱点及改进
第12章用神经网络识别手写数字
12．1 神经网络识别手写数字的原理
12．2 为何识别数字的三层神经网络输出层为10个神经元
……
机器学习案例实战篇
分布式内存管理Alluxio解密篇

前言

2016年3月，阿尔法狗击败了我们这个星球上最出色的围棋选手，其特殊之处在于阿尔法狗下围棋时使用了一种设计人员没有想到的策略，这是人工智能里程碑式的胜利。
　　2017年7月，国务院正式发布《新一代人工智能发展规划》，明确把人工智能发展作为国家战略。人工智能是21世纪的三大尖端技术（基因工程、纳米工程、人工智能）之一。国务院发布人工智能分三步走的规划中指出：到2030年，中国的人工智能理论、技术与应用总体达到世界领先水平，成为世界主要人工智能创新中心，智能经济、智能社会取得明显成效，为跻身创新型国家前列和经济强国奠定重要基础。
　　如何驾驭人工智能时代的技术？如何掌握人工智能各种具体的实战技术？如何使用统一内存技术驾驭任意类型的数据？本书基于实践尝试给予这些问题答案。
　　（1）盘古人工智能框架开发专题篇，包含第1～16章，以图文并茂的形式，带领读者一行一行地编写代码来实现当今主流深度学习框架的核心技术，通过实践解密PyTorch和TensorFlow等最流行技术背后的设计和实现，并讲解深度学习框架在电信运营方面的应用案例。
　　（2）机器学习案例实战篇，包含第17～35章，选取机器学习开发中最具代表性的经典学习案例，透彻讲解机器学习数据预处理，简单线性回归、多元线性回归、多项式回归、支持向量回归、决策树回归、随机森林回归等回归算法，逻辑回归、k近邻算法、支持向量机、朴素贝叶斯算法、决策树分类、随机森林分类等分类算法，k均值聚类、层次聚类等聚类算法，以及关联分析算法，并分别对回归模型、分类模型进行性能评估。
　　（3）分布式内存管理Alluxio解密篇，包含第36～40章，详细讲解Alluxio架构、部署、底层存储及计算应用、基本用法、运行维护等内容。
　　基于美国最流行的Heuristic learning（启发式学习）理念，本书所有的内容都是按照具体的问题场景、核心原理、解决方案的顺序组织，均以动手实践的方式一步步驱动学习者流畅地完成，带来无痛苦的学习体验。
　　读者在阅读本书的过程中，如发现任何问题或有任何疑问，可以加入本书的阅读群讨论，会有专人答疑。同时，该群也会提供本书所用案例源代码及本书的配套学习视频。