新书推荐 |《Python大规模机器学习》

hzbooks

于 2019-06-14 07:02:42 发布

阅读量147

点赞数

新书推荐

《Python大规模机器学习》

点击上图了解及购买

学习快速构建强大的机器学习模型并部署大规模预测应用程序。

内容简介

随着大数据的兴起，对计算及算法效率的需求不断增加。本书介绍一组新的机器学习算法，它们能够满足这类扩展需求，并提高预测准确性。本书首先介绍可扩展的机器学习算法，这些算法的可扩展性可分为三级：第一级是可用于台式计算机的加速算法；第二级是较新算法，专门为可扩展性而设计，可以处理更大的文件；第三级涉及在大数据环境中进行机器学习。本书还将介绍基于Hadoop中的MapReduce框架和Python中的Spark进行高效机器学习的新技术。

通过阅读本书，你将学习：

应用可扩展性较好的机器学习算法
使用较新的大规模机器学习技术
以深度学习和可扩展数据处理技术来提高预测准确性
在Spark中使用MapReduce框架
通过Spark和Hadoop应用有效的机器学习算法
构建强大的可扩展集成
通过单机处理极端大型数据集，使用数据流训练线性和非线性预测模型

作者简介

巴斯蒂安•贾丁（Bastiaan Sjardin）是一位具有人工智能和数学背景的数据科学家和公司创始人。他获得莱顿大学和麻省理工学院（MIT）校园课程联合培养的认知科学硕士学位。在过去五年中，他从事过广泛的数据科学和人工智能项目。他是密歇根大学社会网络分析课程Coursera和约翰斯•霍普金斯大学机器学习实践课程的常客。他擅长Python和R编程语言。目前,他是Quandbee(http://wwwquandbeecom)的联合创始人，该公司主要提供大规模机器学习和人工智能应用。

卢卡•马萨罗（Luca Massaron）是一位数据科学家和市场研究总监，擅长多元统计分析、机器学习和客户洞察力研究，在解决实际问题和应用推理、统计、数据挖掘和算法来为用户创造价值方面有十多年经验。从成为意大利网络观众分析的先驱，到跻身前十名的Kaggler，他一直对数据分析充满热情，还向专业人士和普通大众展示数据驱动知识发现的潜力，相比不必要的复杂性，他更喜欢简洁。他相信仅仅通过基本操作就可以在数据科学中收获很多东西。

阿尔贝托•博斯凯蒂（Alberto Boschetti）是一位具有信号处理和统计专业知识的数据科学家。他获得电信工程博士学位，目前在伦敦生活和工作。在其工作项目中，他面临过从自然语言处理（NLP）和机器学习到分布式处理的挑战。他在工作中充满热情，始终努力了解数据科学的最新发展，他喜欢参加聚会、会议和其他活动。

前言

作者简介

审校者简介

第1章迈向可扩展性的第一步1

1.1详细解释可扩展性1

1.1.1大规模实例3

1.1.2介绍Python4

1.1.3使用Python进行向上扩展4

1.1.4使用Python进行向外扩展5

1.2Python用于大规模机器学习6

1.2.1选择Python 2还是Python 36

1.2.2安装Python7

1.2.3逐步安装7

1.2.4安装软件包8

1.2.5软件包升级9

1.2.6科学计算发行版10

1.2.7Jupyter/IPython介绍11

1.3Python包13

1.3.1NumPy14

1.3.2SciPy14

1.3.3pandas14

1.3.4Scikitlearn15

1.3.5小结21

第2章Scikitlearn中的可扩展学习22

2.1非核心学习22

2.1.1选择子采样23

2.1.2一次优化一个实例24

2.1.3构建非核心学习系统25

2.2流化源数据25

2.2.1处理真实数据集26

2.2.2第一个示例——流化共享单车数据集28

2.2.3使用pandas I/O工具30

2.2.4使用数据库31

2.2.5关注实例排序35

2.3随机学习37

2.3.1批处理梯度下降37

2.3.2随机梯度下降40

2.3.3Scikitlearn的SGD实现40

2.3.4定义SGD学习参数42

2.4数据流的特征管理43

2.4.1描述目标46

2.4.2哈希技巧49

2.4.3其他基本变换51

2.4.4流测试和验证52

2.4.5使用SGD52

2.5小结56

第3章实现快速SVM57

3.1测试数据集58

3.1.1共享单车数据集58

3.1.2森林覆盖类型数据集58

3.2支持向量机59

3.2.1hinge loss及其变形64

3.2.2Scikitlearn的SVM实现65

3.2.3探究通过子采样改善非线性SVM68

3.2.4使用SGD实现大规模SVM70

3.3正则化特征选择77

3.4SGD中的非线性78

3.5超参数调整82

3.6小结96

第4章神经网络与深度学习97

4.1神经网络架构98

4.1.1神经网络如何学习106

4.1.2选择正确的架构110

4.1.3使用神经网络111

4.1.4sknn并行化111

4.2神经网络和正则化113

4.3神经网络和超参数优化115

4.4神经网络和决策边界117

4.5用H2O进行规模化深度学习120

4.5.1用H2O进行大规模深度学习121

4.5.2H2O上的网格搜索124

4.6深度学习和无监督预训练126

4.7使用theanets进行深度学习126

4.8自动编码器和无监督学习128

4.9小结131

第5章用TensorFlow进行深度学习132

5.1TensorFlow安装134

5.2在TensorFlow上使用SkFlow进行机器学习140

5.3安装Keras和TensorFlow148

5.4在TensorFlow中通过Keras实现卷积神经网络152

5.4.1卷积层153

5.4.2池化层153

5.4.3全连接层154

5.5增量CNN方法156

5.6GPU计算156

5.7小结159

第6章大规模分类和回归树160

6.1bootstrap聚合162

6.2随机森林和极端随机森林163

6.3随机搜索实现快速参数优化167

6.4CART和boosting172

6.5XGBoost179

6.5.1XGBoost回归181

6.5.2XGBoost流化大型数据集184

6.5.3XGBoost模型存储185

6.6用H2O实现非核心CART185

6.6.1H2O上的随机森林和网格搜索186

6.6.2H2O上的随机梯度增强和网格搜索188

6.7小结191

第7章大规模无监督学习192

7.1无监督方法192

7.2特征分解：PCA193

7.2.1随机化PCA199

7.2.2增量PCA200

7.2.3稀疏PCA201

7.3使用H2O的PCA202

7.4K-均值聚类算法203

7.4.1初始化方法206

7.4.2K-均值假设206

7.4.3选择最佳K209

7.4.4扩展K-均值算法：小批量212

7.5用H2O实现K-均值216

7.6LDA218

7.7小结226

第8章分布式环境——Hadoop和Spark227

8.1从单机到集群227

8.2设置VM230

8.2.1VirtualBox230

8.2.2Vagrant232

8.2.3使用VM232

8.3Hadoop生态系统234

8.3.1架构234

8.3.2HDFS235

8.3.3MapReduce242

8.3.4YARN250

8.4Spark250

8.5小结260

第9章Spark机器学习实践261

9.1为本章设置虚拟机261

9.2跨集群节点共享变量262

9.2.1广播只读变量262

9.2.2累加器只写变量264

9.2.3广播和累加器的示例265

9.3Spark的数据预处理267

9.3.1JSON文件和Spark DataFrame268

9.3.2处理缺失数据270

9.3.3在内存中分组和创建表271

9.3.4将预处理的DataFrame或RDD写入磁盘273

9.3.5使用Spark DataFrame274

9.4Spark机器学习276

9.4.1Spark处理KDD99数据集277

9.4.2读取数据集277

9.4.3特征工程280

9.4.4训练学习器284

9.4.5评估学习器的表现286

9.4.6机器学习管道的威力286

9.4.7手动优化288

9.4.8交叉验证291

9.5小结293

附录　介绍GPU和Theano294

你与世界

只差一个

公众号

hzbooks

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
新书推荐 |《Python大规模机器学习》

新书推荐《Python大规模机器学习》点击上图了解及购买学习快速构建强大的机器学习模型并部署大规模预测应用程序。内容简介随着大数据的兴起，对计算及算法效率的需求不断增加。本书介绍一组新的...
复制链接

扫一扫