《动手学深度学习》-李沐
文章平均质量分 85
跟着李沐老师的《动手学深度学习》和b站视频上学习,仅交流知识,记录笔记,相互探讨。
Hudiscount
追逐星辰大海之际,记录生活点滴。上海某高校大三在校生->研0,初学计算机->早知道不学计算机。
展开
-
动手学深度学习4.7 no Video /chapter_multilayer-perceptrons/backprop.ipynb.ipynb
例如,如果有两个GPU,可以将前半部分的层放在GPU 0上,后半部分的层放在GPU 1上。在多个GPU之间传递数据会产生通信开销,特别是在前向传播和反向传播过程中频繁的数据传递,这会影响整体的计算效率。通过将模型划分到多个GPU上,可以更加高效地利用每个GPU的内存,避免单个GPU因内存不足而导致的计算瓶颈。小批量训练通过累积多个样本的梯度,可以得到更稳定和准确的梯度估计,从而有助于训练过程的收敛。在拥有多个GPU的环境下,可以充分利用所有GPU的计算能力,从而提高计算效率。假设想计算二阶导数。原创 2024-07-15 15:26:25 · 895 阅读 · 0 评论 -
动手学深度学习4.6 Video 13/chapter_multilayer-perceptrons/dropout.ipynb
这个属性在模型的前向传播方法中经常被用来区分训练和评估模式,从而执行不同的操作(例如,启用或禁用 dropout、batch normalization 等)。当你调用 model.train() 时,self.training 被设置为 True,表示模型处于训练模式。当你调用 model.eval() 时,self.training 被设置为 False,表示模型处于评估模式。所以dropout的类定义实现里的forward函数,通过控制它的值,来控制训练和评估时的数据流动。在 PyTorch 中,原创 2024-07-13 20:36:31 · 635 阅读 · 0 评论