- 博客(36)
- 资源 (3)
- 收藏
- 关注
原创 强化学习中同策略和异策略的定义和区分
因为在更新策略的时候,会从经验回放中取出数据来对现在的策略进行更新,而这些数据是先前的策略生成的,也就是说,生成数据的策略和当前要更新的策略是不同的策略,即off-policy。因为在 on-policy 设定中,更新过程依赖于当前策略生成的数据,而实践中的批量更新技术能够有效地兼顾效率与策略更新的有效性。On-policy定义:在on-policy方法中,智能体从当前策略中学习,并根据从该策略中采样的数据更新策略。- 策略一致性:由于学习过程中使用的是和执行相同的策略,因此策略的评估更加准确。
2024-08-28 08:50:03 497
原创 强化学习中有模型和无模型的理解与应用
总之, MFRL 提供了在各种数据条件下的灵活性,特别是在仿真环境中,直接利用仿真数据进行策略学习通常更加高效和可靠。它可以适用于有仿真的情况以及仅有历史数据的情况。基于模型的强化学习(MBRL) 和 无模型强化学习(MFRL) 在不同的应用场景下有各自的优势和适用性。MBRL侧重于学习环境的模型,并利用环境模型进行决策;强化学习(RL)中的两大类方法是基于模型的强化学习(MBRL)和无模型强化学习(MFRL)。,即使在数据有限的情况下也能够有效利用已有的数据。模型的准确性和策略的效果。
2024-08-28 08:43:49 563
原创 北冥坞“学件”系统
学件由周志华教授在 2016 年提出 [1, 2]。在学件范式下,世界各地的开发者可分享模型至学件基座系统,系统通过有效查搜和复用学件帮助用户高效解决机器学习任务,而无需从零开始构建机器学习模型。北冥坞是学件的第一个系统性开源实现,为学件相关研究提供了一个初步科研平台。有分享意愿的开发者可自由提交模型,学件坞协助产生规约形成学件存放在学件坞中,开发者在这个过程中无需向学件坞泄露自己的训练数据。
2024-08-28 08:32:28 793
原创 投标书制作
对于没有结论或者困惑争议的地方,不要指望能够糊弄过去,如实地分析甚至放在重要的地方重点把可能的困难和解决方案以及选择的过程描述出来,往往会增加胜算。往往评分标准中都有这一条,因此,应该仔细描述自己公司的项目管理、售后服务和培训体系,要符合用户的标书要求,还要符合主流的国际、国内标准。需要提醒的是,评标专家在现场进行评标,需要阅读大量的文字,这个时候一定要严格按照邀标书的格式进行,必要的时候要专门以不同纸张或者标签的形式进行部分区分,以便于专家在不同服务商之间进行对比。要突出团队成员类似项目的成功经验。
2024-06-27 23:21:02 842
原创 虚拟淘宝-Virtual-Taobao论文解读(AAAI2019)
1 论文简介南京大学LAMDA团队的侍竞成、俞扬等人在AAAI 2019发表了一篇论文,介绍了在淘宝这个大型在线零售平台上利用强化学习进行商品搜索的项目。论文题为“Virtual-Taobao: Virtualizing Real-World Online Retail Environment for Reinforcement Learning”,详细描述了该项目的实施过程。
2024-06-15 02:16:01 1079
原创 基于强化学习的控制率参数自主寻优
算法将控制参数矢量 X作为智能体的动作,控制系统的响应结果作为状态,引入动态性能指标计算奖励函数,通过在线学习周期性阶跃响应数据、梯度更新控制器参数的方式改变控制器的控制策略,直至满足优化目标,实现参数的自整定及优化。面向复杂系统的控制建模与控制律设计研发场景,适用于需要频繁进行控制律设计、控制律调整、控制参数调整的研发场景,包括各类机器人设计(机械臂、机械狗、特殊结构如水上水下机器人、拟人机器人等)、各类飞行器设计(固定翼、四旋翼、航天器等)、其他机械设施(汽车、发动机等)。利用梯度下降法更新参数;
2024-05-31 20:54:48 674
原创 PID原理介绍
PID参数的设置的大小,一方面是要根据控制对象的具体情况而定;P是解决幅值震荡,P大了会出现幅值震荡的幅度大,但震荡频率小,系统达到稳定时间长;I是解决动作响应的速度快慢的,I大了响应速度慢,反之则快;PID,就是“比例(proportional)、积分(integral)、微分(derivative)”,是一种很常见的控制算法。kP:让偏差(目标减去当前)与调节装置的“调节力度”,建立一个一次函数的关系;kD:让被控制的物理量的“变化速度”趋于0,即类似于“阻尼”的作用;曲线波动周期长,积分时间再加长;
2024-05-30 21:25:28 324
原创 决策控制类软件项目的团队配置
决策控制类软件项目的团队配置怎样才是最合适的?目的就是实现高效的项目协作以及为企业降本增效。软件项目的主要费用来源是研发人员的开支以及差旅费用。下面的思维导图从项目与产品的关系、团队架构、项目成员配置这几点进行说明如何组织人力更好完成项目协作。
2024-05-26 10:34:39 261
原创 离线强化学习基础知识之offline MBRL和MFRL
1 离线强化学习介绍1 离线强化学习介绍离线强化学习(也称为批量强化学习或完全脱策略强化学习)仅依赖于先前收集的数据集,无需进一步交互。它提供了一种利用先前收集的数据集的方法以自动学习决策策略。离线强化学习可以被定义为 data-driven 形式的强化学习问题,即在智能体不和环境交互的情况下,来从获取的轨迹中学习经验知识,达到使目标最大化,其和Online的区别如图所示:图 在线和离线强化学习的区别对于训练集采用不同的离线强化学习算法进行训练,得到多样策略组。
2024-05-21 23:21:10 382
原创 售前(解决方案)工程师的岗位需求和发展
请注意先后关系,人的一生,大部分人都有一个很长职业生涯,那么找到你的优势,你就可以更舒服和从容,也会更容易做的好,如果没有找到自己的优势,你一直在你没办法做到拔尖水平的事上,你自己也会很痛苦。将公司有的技术,进行组合,支持为客户提供相应的解决方案。之后,跟客户交流,面向的客户不仅有业务老大,还有管理的领导,要求你不仅专业知识上能过硬,对于管理型领导,还要能把方案讲的深入浅出。总之,售前是一个很综合的岗位,要你有过硬的专业知识,也需要你有好的口才,更需要你具备一定的情商,能够拉进客户关系,赢得他的信任。
2024-05-21 23:01:03 1080
原创 强化学习并行算法:决策速度提升
在线交互采集样本是个比较耗时的过程。多个环境同时并行采集数据,会加速训练。强化学习在采集样本侧,也就是和仿真环境进行交互部分,需要的更多的是cpu资源,而在训练模型侧,可以利用GPU加速训练,提高训练速度。
2024-02-22 13:30:00 1482
原创 强化学习平台:智能决策产品的通用范式
强化学习作AI决策,工业界会怎么做?整个产品思路是怎么样的?为了方便决策模型的构建,一般会开发一个强化学习训练平台。有这个平台之后,就能通过平台对公司内部服务器集群的cpu、gpu的资源进行调度,并且支持对接仿真,选择强化学习算法进行训练,以及训练后的效果展示。我这里从两个方面进行梳理。第一是在线强化学习平台框架,第二是离线强化学习平台框架。当然,可以把这两个合为一个产品。不过按照这样划分,对于理解不同场景下用在线或者离线RL会更清晰。
2024-02-21 22:50:26 1007
原创 强化学习的实际应用及思考
1 强化学习用在哪些领域在人类世界中,决策无处不在,每天都要决定很多小事,每年也大多有些重要的事情要决策。目前,强化学习在深度学习大热之后,也迎来了一波高峰,深度网络的加持下,决策也变得更加智能,能应对更加复杂的场景。研究在各行业遍地开花,但是目前强化学习真正能够实现落地的公司少之又少,通常在游戏的场景,才是强化学习的主战场。当然,除了游戏之外,在量化交易、无人机控制、国防、化工、水务、出行、运筹优化、医药等行业都有相关的研究工作,所以强化学习称得上是各行各业都可以使用的技术。
2024-02-18 15:06:56 1049
原创 分层强化学习
2 分层强化学习算法1 分层强化学习简介分层强化算是强化学习领域比较流行的研究方向。当环境较为复杂或者任务较为困难时,智能体的状态和动作空间过大,会导致强化学习难以取得理想的效果。应对这种状况,分层强化学习应运而生,主要解决稀疏reward以及状态动作空间过大导致难以训练的问题。人类在解决一个复杂问题时,往往会将其分解为若干个容易解决的子问题,分而治之,分层的思想正是来源于此。
2024-02-08 15:20:35 3059 2
原创 Value-based RL和Policy-based RL介绍和区别
根据上面的内容,Value-based和Policy-based的概率应该大体有些了解了,另外对于不确定性和确定性策略应该也能区分了,这几个概念是刚学习强化学习绕不过去的。
2024-02-05 15:48:21 819
原创 OfflineRL的重要环节-离线策略评估介绍
离线策略评估是强化学习中一种重要的技术,用于评估一个策略在某个环境中的性能,而不需要与环境进行实际交互。离线策略评估主要用于以下场景:当前策略不适用于实际环境中的交互,但希望评估其性能。通过已有一些历史数据,利用这些数据来评估策略的性能。
2023-11-10 18:30:22 575
原创 模仿学习入门
为了达到模仿学习的目的,目前主要有2种方法,一是Behavior cloning,即行为克隆方法;二是Inverse Reinforcement Learning(IRL),即逆向强化学习方法。
2023-11-10 18:08:25 455
原创 迁移学习入门
迁移学习按学习方法分类,可以分为四个大类:基于样本的迁移学习方法、基于特征的迁移学习方法、基于模型的迁移学习方法、基于关系的迁移学习方法。
2023-11-10 17:45:02 627
原创 MARL三种架构
在 MARL 中,智能体之间会相互影响,而本节中的“去中心化训练”把智能体视为独立个体,忽视它们之间的关联,直接 用 SARL 方法独立训练每个智能体。所有agent都把信息传到中央控制器,中央控制器知道所有agent的观测、动作以及奖励,agent上没有策略网络,自己不做决策,只执行指令。智能体负责与环境交互,执行中央控制器的决策,并把观测到的o汇报给中央控制器。训练结束之后,不再需要中央控制器,每个智能体独立根据本地观测o做决策。在完成训练之后,智能体不再做通信,智能体用本地部署的策略网络做决策。
2023-11-10 17:38:00 171
原创 图谱入门学习
知识图谱以结构化的形式描述客观世界中概念、实体及其关系,将互联网的信息表达成更接近人类认知世界的形式,提供了一种更好地组织、管理和理解互联网海量信息的能力。其本质上是一种语义网络,其中节点代表实体或者概念,边代表实体/概念之间的各种语义关系。知识图谱可分为模式层与数据层,模式层存储的是经过提炼的知识,通常采用本体库来管理知识图谱的模式层,借助本体库对公理、规则和约束条件的支持能力来规范实体、关系以及实体的类型和属性等对象之间的联系。数据层主要是由一系列的事实组成,知识以事实为单位存储在图数据库。
2023-11-10 17:27:18 136
原创 docker-镜像:使用GPU训练的简易教程以及一些常用命令
下载基础镜像查看镜像运行容器查看正运行容器docker ps输入命令会进到容器中,如上图.在容器中写测试是否可以使用GPU的脚本执行脚本退出容器exit删除容器。
2023-10-22 19:03:42 1065 1
原创 docker: Error response from daemon: could not select device driver with capabilities: [[gpu]]问题记录解决
如果显示的是WARNING:No swap limit support或者什么都没显示,就说明是nvidia驱动程序没有被docker daemon使用,这个时候有点麻烦,可能是因为/etc/docker/daemon.json配置文件没配置对,也可能是docker没安装好。如果显示"nvidia:yes"或者有其他正常显示,就说明docker daemon正在使用nvidia驱动程序,这个时候使用--gpus=all选项是不会报错的。检查docker是否正确安装,用下面命令。在当前目录位置创建一个脚本。
2023-10-21 20:40:09 5793 6
原创 ubuntu服务器构建docker环境操作流程(docker新版:docker19之后版本)
新版docker搭建教程,简明易懂 , 与老版本的docker操作方式完全不一样,大家注意搭建docker环境的时候要注意。
2023-10-21 20:04:41 164 1
原创 强化学习在流程工业应用思考
难点:长迟滞导致当前的决策影响后几分钟的数据变化,但是这个时间也就是“停留时间”在反应的前中后期也不一样。另外反应过程中反应程度你是不可控的,导致几分钟后的数据是因为当前的这个决策所影响的判断较难下定量的结论。奖励:上述的奖励设定感觉还是短迟滞反应的奖励设定,长迟滞反应的奖励你该怎么设定,这个还需要考虑,如果想做一个较通用化的软件来训练RL的模型,也逃避不了奖励的设定、态势的选取。如果奖励考虑优化,那么就会加入能耗这个指标,定奖励时,控稳的权重要远大于能耗的权重,这样效果会更好。
2023-10-21 18:41:21 146 1
原创 self_play简介
联盟对抗:基于智能体的自博弈,将己方和对手智能体训练得到的具有一定胜率的策略放进己方和对手的策略池中,将策略池的策略通过概率选择器进行选择其中之一,让己方和对手智能体进行对抗。而这种方式让红蓝双方有来有回的进行策略迭代,让行为模型往更优的地方发展。自博弈介绍:首先通过策略训练得到一个智能体,然后训练到一定程度,换对手为智能体进行训练博弈,然后等待对手智能体训练到一定的程度,再换己方智能体训练,循环往复。主智能体(Main Agent): 为正在训练的智能体,用于训练鲁棒性最强的策略,也是最后部署的策略。
2023-10-16 22:44:29 191 1
原创 vim学习-应付工作最简化版本
1. 左下上右 :hjkl2. x :删除光标所在字符3. d+motion :删除+范围数字+motion :多个+motionmotion(重要)拷贝: y [数字] motion3. p :将最后一次删除的内容粘贴到光标下一行P :将最后一次删除的内容粘贴到光标前一行4. y :拷贝......
2022-06-30 23:50:32 70 1
原创 10个提升你10倍效率的搜索引擎小技能
经常有人会问我,怎么收集资料、查找文档、书籍速度那么快,都是在哪里找的?因此还得了一个“电子书小王子”的称号,本文就把我所日常运用的小技能全都教给你,希望看到本文的读者朋友,一刻不要停,马上开始应用起来,用起来就是赚到。因为好的搜索引擎习惯与技巧,往往可以成倍的提升你的效率,所以请花上5分钟阅读,并坚持至少一周时间实践并形成习惯,你会发现你的工作效率提升了10倍不止,而且一旦学会,终身受用。接下来我就以Google和百度两大搜索引擎为例,分享我所知道的10个搜索引擎小技能:1、双引
2022-04-11 21:14:42 1443
原创 git使用够用指南
命令:git clone怎么去找开源项目:Trending repositories on GitHub today · GitHub人工智能-掘金 (juejin.cn)怎么在github搜索项目:找百科大全 awesome XXX找列子: XXX sample找空项目架子 : xxx starter / xxx boilerplate找教程: xxx tutoria推荐一个git简明视频教程让你更好的学习,讲的非常好:Github 新手够用指南 |.
2022-04-09 08:40:51 1123
原创 linux(centos7)搭建共享文件夹 #samba (亲测有用)
步骤如下:建议直接看博主的视频,直接按部就班操作就能搞定。linux搭建文件共享(四) #samba #centos7文件共享_哔哩哔哩_bilibili
2022-04-08 22:37:00 393
原创 虚拟机安装Linux系统Centos7 的网络配置 (亲测有用)
【保姆级操作步骤】虚拟机安装Linux系统Centos7 以及后续的网络配置_哔哩哔哩_bilibili谢谢这位大侠,我按照他的教程仔细的装了,终于搞定了 。PS.这个视频的最后一步,我在操作的时候,输入systemctl restart network.service命令报错。不要着急! 三步教你搞定。第一步,禁用NetworkManger 服务/bin/systemctl stop NetworkManager.service第二步,将NetworkManager开机禁用.
2022-04-08 00:17:22 1190
原创 Failed to convert a array to a Tensor
(遇到此error,看这篇就对了)运行代码:model.fit(in_fe, labels, validation_split=0.25, epochs=10, batch_size=64)报错:ValueError: Failed to convert a array to a Tensor (Unsupported object type这里也是经过查找解决方法,有一种解决方法是说卸载numpy,换一个版本,这种方式不如直接用下面的转换数据格式的方式直接。原因: fit()之前没
2022-03-06 11:01:34 2300
原创 jupyter notebook切换环境 , bad file descriptor问题
jupyter notebookanoconda python
2022-03-05 21:04:17 1772 2
原创 杭州的互联网公司总结
杭州的互联网公司比较多,这篇文章也只是挑选出一些比较有代表性的来简单介绍一下。希望能够对你们有帮助!整理不易,希望大家能够多多帮忙扩散转发支持一下。一二线大厂字节跳动 「基本情况」:字节总部在北京,在上海、深圳、杭州、广州、成都等地都有办公室。今年 6 月,抖音电商落户杭州。 「业务方向」:抖音电商、抖音餐饮、字节跳动广告业务、字节跳动本地生活 「工作地点」:余杭区中国杭州 5G 创新园 5 层、余杭区杭州巨量引擎网络技术有限公司 1401 「福利情...
2021-10-17 23:23:05 3706
基于模板匹配的车牌识别
2017-12-05
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人