python规模_Python大规模机器学习

目录

译者序

前言

作者简介

审校者简介

第1章迈向可扩展性的步1

11详细解释可扩展性1

111大规模实例3

112介绍Python4

113使用Python进行向上扩展4

114使用Python进行向外扩展5

12Python用于大规模机器学习6

121选择Python 2还是Python 36

122安装Python7

123逐步安装7

124安装软件包8

125软件包升级9

126科学计算发行版10

127Jupyter/IPython介绍11

13Python包13

131NumPy14

132SciPy14

133pandas14

134Scikitlearn15

135小结21

第2章Scikitlearn中的可扩展学习22

21非核心学习22

211选择子采样23

212一次优化一个实例24

213构建非核心学习系统25

22流化源数据25

221处理真实数据集26

222个示例——流化共享单车数据集28

223使用pandas I/O工具30

224使用数据库31

225关注实例排序35

23学习37

231批处理梯度下降37

232梯度下降40

233Scikitlearn的SGD实现40

234定义SGD学习参数42

24数据流的特征管理43

241描述目标46

242哈希技巧49

243其他基本变换51

244流测试和验证52

245使用SGD52

25小结56

第3章实现快速SVM57

31测试数据集58

311共享单车数据集58

312森林覆盖类型数据集58

32支持向量机59

321hinge loss及其变形64

322Scikitlearn的SVM实现65

323探究通过子采样改善非线性SVM68

324使用SGD实现大规模SVM70

33正则化特征选择77

34SGD中的非线性78

35超参数调整82

36小结96

第4章神经网络与深度学习97

41神经网络架构98

411神经网络如何学习106

412选择正确的架构110

413使用神经网络111

414sknn并行化111

42神经网络和正则化113

43神经网络和超参数优化115

44神经网络和决策边界117

45用H2O进行规模化深度学习120

451用H2O进行大规模深度学习121

452H2O上的网格搜索124

46深度学习和无监督预训练126

47使用theas进行深度学习126

48自动编码器和无监督学习128

49小结131

第5章用TensorFlow进行深度学习132

51TensorFlow安装134

52在TensorFlow上使用SkFlow进行机器学习140

53安装Keras和TensorFlow148

54在TensorFlow中通过Keras实现卷积神经网络152

541卷积层153

542池化层153

543全连接层154

55增量N方法156

56GPU计算156

57小结159

第6章大规模分类和回归树160

61bootstrap聚合162

62森林和森林163

63搜索实现快速参数优化167

64CART和boosting172

65XGBoost179

651XGBoost回归181

652XGBoost流化大型数据集184

653XGBoost模型存储185

66用H2O实现非核心CART185

661H2O上的森林和网格搜索186

662H2O上的梯度增强和网格搜索188

67小结191

第7章大规模无监督学习192

71无监督方法192

72特征分解:PCA193

721化PCA199

722增量PCA200

723稀疏PCA201

73使用H2O的PCA202

74K-均值聚类算法203

741初始化方法206

742K-均值假设206

743选择K209

744扩展K-均值算法:小批量212

75用H2O实现K-均值216

76LDA218

77小结226

第8章分布式环境——Hadoop和Spark227

81从单机到集群227

82设置VM230

821VirtualBox230

822Vagrant232

823使用VM232

83Hadoop生态系统234

831架构234

832HDFS235

833MapReduce242

834YARN250

84Spark250

85小结260

第9章Spark机器学习实践261

91为本章设置虚拟机261

92跨集群节点共享变量262

921广播只读变量262

922累加器只写变量264

923广播和累加器的示例265

93Spark的数据预处理267

931JSON文件和Spark DataFrame268

932处理缺失数据270

933在内存中分组和创建表271

934将预处理的DataFrame或RDD写入磁盘273

935使用Spark DataFrame274

94Spark机器学习276

941Spark处理KDD99数据集277

942读取数据集277

943特征工程280

944训练学习器284

945评估学习器的表现286

946机器学习管道的威力286

947手动优化288

948交叉验证291

95小结293

附录介绍GPU和Theano294

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值