H2O学习笔记（三）—— Deep Learning

最新推荐文章于 2024-07-09 06:30:00 发布

Yaphat

最新推荐文章于 2024-07-09 06:30:00 发布

阅读量5.8k

点赞数

分类专栏： H2O学习笔记深度学习机器学习文章标签：深度学习 H2O

本文链接：https://blog.csdn.net/Yaphat/article/details/52892574

版权

机器学习同时被 3 个专栏收录

40 篇文章

订阅专栏

深度学习

20 篇文章

订阅专栏

H2O学习笔记

8 篇文章

订阅专栏

本文详细介绍了H2O深度学习模块的核心功能，包括激活和损失函数的选择、并行分布式网络训练、训练样本数量的设定、正则化技术以及高级优化方法等内容。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

H2O Deep Learning 模块

（一）Activation and Loss函数

H2O支持的Activation Functions

这里写图片描述

tanh函数关于0对称，使得训练算法收敛较快
Rectified Linear函数在图像识别上面有较高的性能表现
Maxout函数是广义的Rectified Linear函数

对于响应变量，可以指定以下的几个分布函数：

这里写图片描述

每一个分布都有对应的损失函数，Bernoulli和Multinomial分布对应cross-entropy(log)损失，Gaussian分布对应于Mean Squared Error,Laplace分布对应于Absolute损失， Huber对应Huber损失，对于Poisson, Gamma和 Tweedie 分布, 损失函数不能改变，所以损失函数设置为AUTO.

损失函数如下：

这里写图片描述

（二）Parallel Distributed Network Training

最小化损失函数L(W, B | j)需要使用SGD，传统的SGD算法速度很快，但并行化之后整个算法的速度就变慢了，H2O实现了一个叫Hogwild!的架构，它是一种共享内存的模型，核心思想是将数据先分发到各个节点并行执行，然后每个节点的数据再分发到每个节点的多核上，使用多线程异步执行。从而提高效率

这里写图片描述

(三) Specifying the Number of Training Samples

H2O是可扩展的，能充分利用计算节点的能力
使用train samples per iteration参数，如果指定为-1，所有节点处理每次迭代处理他们的本地数据。设置为-2，基于计算能力和网络开销会自动调整合适的参数，参数会影响整个训练过程的收敛速度。
例如说：整个训练数据10millions，在四个节点的集群上指定每次迭代的训练数据100000，每个节点每次迭代会处理25000个数据，one epoch会经过40次分布式迭代。