python规模多大_Python大规模机器学习

Python大规模机器学习

作者:(荷)巴斯蒂安·贾丁(Bastiaan Sjardin) 等著

出版日期:2019年02月

文件大小:60.42M

支持设备:

¥60.00仅供试读

适用客户端:

言商书局

iPad/iPhone客户端:下载 Android客户端:下载PC客户端:下载更多详情:查看

?对图书下载、阅读卡购买有疑问:立即进入帮助中心>>

图书简介

目录

本书不仅介绍大规模机器学习的基本概念,还包含丰富的案例研究。书中所选皆为最实用的技术和工具,而对理论细节不进行深入讨论,旨在提供大规模机器学习方法(甚至非常规方法)。不管是初学者、普通用户还是专家级用户,通过本书都能理解并掌握利用Python进行大规模机器学习。为让读者快速掌握核心技术,本书由浅入深讲解大量实例,图文并茂呈现每一步的操作结果,帮助读者更好地掌握大规模机器学习Python工具。例如:基于Scikit-learn可扩展学习、 Liblinear和Vowpal Wabbit快速支持向量机、基于Theano与H2O的大规模深度学习方法、TensorFlow深度学习技术与在线神经网络方法、大规模分类和回归树的可扩展解决方案、大规模无监督学习(PCA,聚类分析和主题建模等)扩展方法、Hadoop和Spark分布式环境、Spark机器学习实践以及Theano和GPU计算的基础知识。

译者序

前言

作者简介

审校者简介

第1章 迈向可扩展性的第一步

1.1 详细解释可扩展性

1.1.1 大规模实例

1.1.2 介绍Python

1.1.3 使用Python进行向上扩展

1.1.4 使用Python进行向外扩展

1.2 Python用于大规模机器学习

1.2.1 选择Python 2还是Python 3

1.2.2 安装Python

1.2.3 逐步安装

1.2.4 安装软件包

1.2.5 软件包升级

1.2.6 科学计算发行版

1.2.7 Jupyter/IPython介绍

1.3 Python包

1.3.1 NumPy

1.3.2 SciPy

1.3.3 pandas

1.3.4 Scikit-learn

1.3.5 小结

第2章 Scikit-learn中的可扩展学习

2.1 非核心学习

2.1.1 选择子采样

2.1.2 一次优化一个实例

2.1.3 构建非核心学习系统

2.2 流化源数据

2.2.1 处理真实数据集

2.2.2 第一个示例——流化共享单车数据集

2.2.3 使用pandas I/O工具

2.2.4 使用数据库

2.2.5 关注实例排序

2.3 随机学习

2.3.1 批处理梯度下降

2.3.2 随机梯度下降

2.3.3 Scikit-learn的SGD实现

2.3.4 定义SGD学习参数

2.4 数据流的特征管理

2.4.1 描述目标

2.4.2 哈希技巧

2.4.3 其他基本变换

2.4.4 流测试和验证

2.4.5 使用SGD

2.5 小结

第3章 实现快速SVM

3.1 测试数据集

3.1.1 共享单车数据集

3.1.2 森林覆盖类型数据集

3.2 支持向量机

3.2.1 hinge loss及其变形

3.2.2 Scikit-learn的SVM实现

3.2.3 探究通过子采样改善非线性SVM

3.2.4 使用SGD实现大规模SVM

3.3 正则化特征选择

3.4 SGD中的非线性

3.5 超参数调整

3.6 小结

第4章 神经网络与深度学习

4.1 神经网络架构

4.1.1 神经网络如何学习

4.1.2 选择正确的架构

4.1.3 使用神经网络

4.1.4 sknn并行化

4.2 神经网络和正则化

4.3 神经网络和超参数优化

4.4 神经网络和决策边界

4.5 用H2O进行规模化深度学习

4.5.1 用H2O进行大规模深度学习

4.5.2 H2O上的网格搜索

4.6 深度学习和无监督预训练

4.7 使用theanets进行深度学习

4.8 自动编码器和无监督学习

4.9 小结

第5章 用TensorFlow进行深度学习

5.1 TensorFlow安装

5.2 在TensorFlow上使用SkFlow进行机器学习

5.3 安装Keras和TensorFlow

5.4 在TensorFlow中通过Keras实现卷积神经网络

5.4.1 卷积层

5.4.2 池化层

5.4.3 全连接层

5.5 增量CNN方法

5.6 GPU计算

5.7 小结

第6章 大规模分类和回归树

6.1 bootstrap聚合

6.2 随机森林和极端随机森林

6.3 随机搜索实现快速参数优化

6.4 CART和boosting

6.5 XGBoost

6.5.1 XGBoost回归

6.5.2 XGBoost流化大型数据集

6.5.3 XGBoost模型存储

6.6 用H2O实现非核心CART

6.6.1 H2O上的随机森林和网格搜索

6.6.2 H2O上的随机梯度增强和网格搜索

6.7 小结

第7章 大规模无监督学习

7.1 无监督方法

7.2 特征分解:PCA

7.2.1 随机化PCA

7.2.2 增量PCA

7.2.3 稀疏PCA

7.3 使用H2O的PCA

7.4 K-均值聚类算法

7.4.1 初始化方法

7.4.2 K-均值假设

7.4.3 选择最佳K

7.4.4 扩展K-均值算法:小批量

7.5 用H2O实现K-均值

7.6 LDA

7.7 小结

第8章 分布式环境——Hadoop和Spark

8.1 从单机到集群

8.2 设置VM

8.2.1 VirtualBox

8.2.2 Vagrant

8.2.3 使用VM

8.3 Hadoop生态系统

8.3.1 架构

8.3.2 HDFS

8.3.3 MapReduce

8.3.4 YARN

8.4 Spark

8.5 小结

第9章 Spark机器学习实践

9.1 为本章设置虚拟机

9.2 跨集群节点共享变量

9.2.1 广播只读变量

9.2.2 累加器只写变量

9.2.3 广播和累加器的示例

9.3 Spark的数据预处理

9.3.1 JSON文件和Spark DataFrame

9.3.2 处理缺失数据

9.3.3 在内存中分组和创建表

9.3.4 将预处理的DataFrame或RDD写入磁盘

9.3.5 使用Spark DataFrame

9.4 Spark机器学习

9.4.1 Spark处理KDD99数据集

9.4.2 读取数据集

9.4.3 特征工程

9.4.4 训练学习器

9.4.5 评估学习器的表现

9.4.6 机器学习管道的威力

9.4.7 手动优化

9.4.8 交叉验证

9.5 小结

附录 介绍GPU和Theano

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值