Policy distillation: Example 1

最新推荐文章于 2024-05-21 17:26:41 发布

black0moonlight

最新推荐文章于 2024-05-21 17:26:41 发布

阅读量321

点赞数 9

文章标签：人工智能

本文链接：https://blog.csdn.net/black0moonlight/article/details/136684564

版权

参考：

GitHub - CUN-bjy/policy-distillation-baselines: Pytorch Implementation of Policy Distillation for control, which has well-trained teachers via stable_baselines3.

配置conda环境：

python==3.7
gym==0.19.0
tensorboardX
torch
stable-baselines3[extra,tests,docs]==1.1.0
pybullet==2.7.8
optuna
pyyaml>=5.1
sb3-contrib==1.0.0

测试教师模型：

python policy_distillation.py --model teacher --algo td3 --env AntBulletEnv-v0

知识蒸馏：

先创建文件夹：

mkdir distilled-agents

训练：

python policy_distillation.py --algo td3 --env AntBulletEnv-v0

测试学生：

python playground.py --mode student -p /home/blamlight/Documents/Github/policy-distillation-baselines/distilled-agents/AntBulletEnv-v0_td3_1710318896.1154015/student_10000_3260.12.pkl

优惠劵

black0moonlight

关注关注

9
点赞
踩
9

收藏

觉得还不错? 一键收藏
1
评论
Policy distillation: Example 1

【代码】Policy distillation: Example 1。
复制链接

扫一扫

Self-Distillation: Towards Efficient and Compact Neural Networks

01-15

【论文速递】TPAMI2022 - 自蒸馏：迈向高效紧凑的神经网络在过去的几年里，深度神经网络取得了显著的成就。然而，神经网络精度的突破总是伴随着计算和参数的爆炸式增长，这导致了模型部署的严重限制。在本文中，我们提出了一种名为自蒸馏的新型知识蒸馏技术来解决这个问题。自蒸馏在神经网络的不同深度附加了几个注意力模块和浅层分类器，并将知识从最深的分类器提炼到较浅的分类器。与传统的知识蒸馏方法不同，教师模型的知识转移到另一个学生模型中，自我蒸馏可以被视为同一模型中的知识转移 - 从深层到浅层。此外，自蒸馏中的附加分类器允许神经网络以动态方式工作，从而导致更高的加速度。实验表明，自蒸馏在各种神经网络和数据集上具有一致且显著的有效性。平均而言，在CIFAR100和ImageNet上观察到3.49%和2.32%的精度提升。此外，实验表明，自蒸馏可以与其他模型压缩方法相结合，包括知识蒸馏、修剪和轻量级模型设计。

feature-distillation:纸张的Python实现

05-13

特征提取该存储库实现了以下论文中介绍的面向DNN的JPEG压缩介绍图1：面向DNN的JPEG压缩图用法 python jpeg.py --image fig/lena.png --component dnn usage: jpeg.py [-h] [--image IMAGE] [--component COMPONENT] [--factor FACTOR] optional arguments: -h, --help show this help message and exit --image IMAGE image name --component COMPONENT dnn-oriented or jpeg standard --factor FACTOR

1 条评论您还未登录，请先登录后发表或查看评论

Knowledge-Distillation:博客https

05-08

用Keras进行知识蒸馏 Keras实施Hinton的知识蒸馏（KD），这是一种将知识从大模型转移到小模型的方法。概括我使用Caltech-256数据集对该技术进行了演示。我将知识从Xception转移到MobileNet-0.25和SqueezeNet v1.1。结果：模型准确性，％前5个准确度，％对数损失 Xception 82.3 94.7 0.705 MobileNet-0.25 64.6 85.9 1.455 带KD的MobileNet-0.25 66.2 86.7 1.464 SqueezeNet v1.1 67.2 86.5 1.555 带KD的SqueezeNet v1.1 68.9 87.4 1.297 实施细节我在ImageNet模型上使用了预训练。为了进行验证，我使用了每个类别的20张图像。为

bert-distillation:用催化剂框架蒸馏BERT模型

05-14

伯特蒸馏对于更通用的管道，请遵循库和。我不再支持该项目。该项目是关于BERT蒸馏的。目的是通过便捷的高级API，可再现性和所有GPU新功能，基于任何语言提炼出任何BERT。特征各种损失分布式培训 fp16 使用张量板，wandb等进行日志记录催化剂框架简短查询不久之前，Hugging Face团队发表了有关DistilBERT模型的。这个想法是将知识从大学生模型转移到小学生模型。首先，我们需要训练有素的老师模型。让我们采用6个编码器，而不是12个！我们应该使用教师层初始化小模型的层。不用长时间训练我们的模型来进行隐蔽语言模型任务，我们可以增加我们的偶然损失KL散度和学生与老师之间的余弦损失，因为我们知道老师受过良好的训练。如本文所示，这种方法导致质量下降较小，减小模型尺寸并加快推理速度，尤其是在移动设备上。用法在催化剂框架中，有两种运行实

Distillation:化学工程应用

07-24

蒸馏化学工程应用：用于 McCabe-Thiele 和 Pochon-Savrit 方法的蒸馏计算器。

【人人可学的AI】策略蒸馏

文始道宗藏经阁

01-06

883

策略蒸馏（Policy Distillation）是一种将大型深度强化学习模型的行为转化为更简单的、轻量级的模型的方法。这个方法通常用于将训练好的大型深度强化学习模型部署到现实世界的情况中。在策略蒸馏中，我们会使用训练好的大型模型来生成大量的“模拟”数据，然后使用这些数据来训练轻量级的模型。轻量级的模型可以在更少的计算资源的情况下运行，并且通常更加稳定。策略蒸馏通常被用于在线下训练大型模型，然后在线上部署轻量级的模型的场景中。

转自知乎，深度强化学习论文https://zhuanlan.zhihu.com/p/23600620

zxx650的博客

06-06

7257

一. 开山鼻祖DQN1. Playing Atari with Deep Reinforcement Learning，V. Mnih et al., NIPS Workshop, 2013.2. Human-level control through deep reinforcement learning, V. Mnih et al., Nature, 2015.二. DQN的各种改进版本（侧...

【强化学习笔记-02】多任务深度强化学习

weixin_41821317的博客

10-25

2547

“A Survey of Multi-Task Deep Reinforcement Learning”-2020 中文整理：https://zhuanlan.zhihu.com/p/265750570 在中文整理的基础上对一些方法进行了补充。存在的问题：普通RL算法在同一环境中跨相关任务的许多场景中的适用性有限本文的目的是survey DRL领域中与多任务相关的研究挑战，并通过比较sota方法——DISTRAL (DIStill & TRAnsfer Learning), IMPALA(Im

深度学习之google deepmind的alphago AI人工智能算法技术演变历程

孙佰贵的专栏

03-14

1万+

最近大家比较关心的围棋人机大战（google alphago深度学习+蒙特卡洛搜索算法 vs 李世石）中，google deepmind基于Nature2016文章的alphago算法在5局制的比赛中已经取得了3-1的成绩提前锁定了胜局。本文扒了一下google deepmind在该领域的一些文章，揭示了google alphago的算法技术演变历程。

人工智能如何模拟动物大脑实现连续学习

qiu_peng的博客

03-22

1536

动机实现通用人工智能的关键步骤是获得连续学习的能力，也就是说，一个代理（agent）必须能在不遗忘旧任务的执行方法的同时习得如何执行新任务。然而，这种看似简单的特性在历史上却一直未能实现。McCloskey 和 Cohen（1989）首先注意到了这种能力的缺失——他们首先训练一个神经网络学会了给一个数字加 1，然后又训练该神经网络学会了给数字加 2，但之后该网络就不会给数字加 1 了。他们

解读72篇DeepMind深度强化学习论文

小小挖掘机

09-12

4028

来源：王小惟的知乎https://zhuanlan.zhihu.com/p/70127847编辑：DeepRL论文下载方法：pdf合集下载见文章末尾DRL领域交流与讨论加...

第十章强化学习

weixin_39721214的博客

08-18

555

文章目录第十章强化学习10.1 强化学习的主要特点？10.1.1 定义10.2 强化学习应用实例10.3 强化学习和监督式学习、非监督式学习的区别10.3.1 强化学习和监督式学习的区别：10.3.2 强化学习和非监督式学习的区别：10.4 强化学习主要有哪些算法？10.5 深度迁移强化学习算法10.6 分层深度强化学习算法10.7 深度记忆强化学习算法10.8 多智能体深度强化学习算法10.9...

深度学习论文

gdtop的个人笔记

02-24

1万+

一、ImageNet Evolution 以下五篇论文是深度学习的破冰著作，见证了卷积神经网络越来越深，效果越来越好，其中ResNet更是在原始网络结构上有了新的突破~~ [Nature15] Deep Learning：摘自Yann LeCun和Youshua Bengio以及GeoffreyHinton三人合著发表在nature2015的论文 [NeurIPS12] ImageNet ...

深度增强学习方向论文整理

凌风探梅的专栏

11-30

8968

from：https://zhuanlan.zhihu.com/p/23600620 作者：Alex-zhai 链接：https://zhuanlan.zhihu.com/p/23600620 来源：知乎著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。一. 开山鼻祖DQN 1. Playing Atari with Deep Reinforcem

【文献阅读】Universal Trading for Order Execution with Oracle Policy Distillation

“相关推荐”对你有帮助么？

非常没帮助
没帮助
一般
有帮助
非常有帮助

提交