领海王WHL-CSDN博客

原创匈牙利算法的python实现

该算法由Harold W.Kuhn提出，1955年发表在Naval Research Logistics Quartely期刊上——The Hungarian Method for the assignment problem。该算法的解释B站有一个老师（北京化工大学公开课——最优化方法）讲的非常好，对算法的原理步骤讲的很清晰，并辅助了具体的例子把算法手算了一遍，非常有助于理解。其中Expected results是实现计算过的最佳结果，与事先计算过的最佳results比较，说明算法运行正确。

2022-10-21 09:27:01 1366 3

原创 Python代码实现二分法，固定点法，牛顿法，割线法

本文分别采用python代码实现二分法，固定点法，牛顿法，割线法来求某方程的零点。这几种方法是数值优化中求方程零点的非常常用的方法。

2022-10-21 09:21:22 1454

原创 2022年最值得阅读的强化学习书籍

推荐了九本强化学习领域最新的比较权威的书籍，从初学者到进阶都可以使用。

2022-10-21 09:12:47 3245

原创关于MATLAB中双精度值的解释，以及Inf，NaN的值具体是多少，为什么是这个值

关于MATLAB双精度值的解释，以及Inf，Nan的值具体是多少，为什么是这个值。

2022-10-20 10:08:46 2517

原创强化学习领域有哪些最热门和最有前途的研究课题

强化学习领域当前最热门和最有前途的研究课题

2022-08-04 09:55:13 1404

翻译强化学习最强仿真平台--MuJoCo官方文档解读-Introduction

链接2021年10月18日DeepMind收购并开源了MuJoCo软件（之前都是收费的，最早由Roboti LLC开发），MuJoCo：Multi-Joint dynamics with Contact一、Overview1.1 介绍MuJoCo是一个带有C API的C/C库，面向研究人员和开发人员。运行时模拟模块被调优为最大限度地提高性能，并对由内置XML解析器和编译器预先分配的低级数据结构进行操作。用户使用原生的MJCF场景描述语言定义模型–这是一种设计为尽可能具有人类可读性和可编辑性的XML文

2021-10-19 15:49:01 8340 5

原创《Make Your Own Neural Network》python代码呈现

# python notebook for Make Your Own Neural Network# code for a 3-layer neural network, and code for learning the MNIST dataset# (c) Tariq Rashid, 2016# license is GPLv2import numpy# scipy.special for the sigmoid function expit()import scipy.special

2021-06-20 15:59:12 159

原创手把手教你强化学习-第2章

文章目录OpenAI Gym库agent探深硬件和软件要求OpenAI Gym APIGym库的wrappers和monitors后记OpenAI Gym库agent探深硬件和软件要求OpenAI Gym APIGym库的wrappers和monitors后记

2021-05-23 19:16:09 1029

原创手把手教你强化学习--第1章

第一章：强化学习是什么？前言对于初学者来说，第一章肯定是要讲强化学习到底是一个什么东西，如果已经了解的话，可以直接跳过。原作的内容非常详实，我在这里提炼作者的观点，并给出一些自己的理解。这章不涉及代码，主要是一些概念的理解的东西。如果你觉得看原文很繁琐，也可以考虑看一下我写的这一篇。首先强化学习它是属于机器学习的一个子类，是属于机器学习的范畴。强化学习可以随着时间的推移自动学习最佳决策，这让它在最近几年，在许多科学和工程领域活跃起来。机器学习还包括了有监督学习和无监督学习，下面主要分三点讲：强

2021-05-15 10:55:01 402

原创基于强化学习方法的PID参数整定

前言PID控制器在工业界应用非常广泛，但是PID的参数调节一般需要人工根据经验法来试。对于有经验的工程师来说，一般试几次就可以获得满足调节的参数。然而对于新手工程师却很难确定一套比较好的参数。这里我们采用强化学习的方法来调节PID参数。这个例子展示了如何使用双延迟深度确定性策略梯度(TD3：twin-delayed deep deterministic policy gradient)强化学习算法来调整PI控制器。整定控制器的性能与使用Control System Tuner app整定的控制器的性能

2021-04-21 21:42:03 12968 18

原创标准英语写作——从中式英语到地道英语——读书笔记3（句子分析思考）

文章目录第二章分析思考第一节句子的逻辑性1. 逻辑清晰的句子2. 归纳思维3. 演绎思维第二节逻辑混乱的句子第三节句子的思路和表达（重点）1. “我”字当头2. 直截了当3. 事件表达的具体性4. 语言表达的形象性5. 时间表达的现实性6. 空间表达的方向性7. 动词短语的简洁性8. 抽象和具体的统一性：of 短语9. 特殊动词的使用10. 特殊名词的使用11. 伴随状语的使用12. 礼节上的含蓄第四节范文分析：思考式的学习第二章分析思考这一章是讲句子的书写，占据了书中最多的内容！第一节

2021-04-08 09:45:50 380

原创标准英语写作——从中式英语到地道英语——读书笔记2

第一章发现问题首先，什么是中国式英语？中国式英语在中国人之间可以勉强沟通思想，但是在以英语为母语的国家或人群中无法使用，或者不能被接受。所有使用汉语思维方式进行英语表达的人都在使用中国式英语；所有由中国人表达的、不是标准英语句子的都是中国式英语。不过不要被吓到了，某些英语水平很高的中国人，比如外交官，大学英语老师等，偶尔也会无意识使用中国式英语，因为他的中国式思维干扰了他的表达。其次，请大家看一个老外写的美式汉语：如果翻译成英文的话，大概是下面这样:这样看来中国式英语，也没有太尴尬！

2021-03-07 22:03:45 276

原创标准英语写作——从中式英语到地道英语——读书笔记1

（本文883字，预计阅读时间6分钟）标准英语写作——从中式英语到地道英语马衰编著前言这本书不是讲语法的书，也不是教你如何写长篇文章的书，这本书默认读者语法已经很熟悉了。中国学生虽然很难用第二语言表达达到母语的程度，但是，我们要有这种愿望，而且要对差距的原因有清醒的认识。本书从如何写好英语句子出发，克服与西方文化、思维差异上的桎梏，避免Chinese English的出现。并介绍句子的修辞方法。绝大多数中国人在写英语文章时，不免会遇到中式英语这个问题，这本书很有针对性的解决了这个问题。今天开始和

2021-03-07 10:04:52 215 2

原创鸟哥-Linux私房菜-基础学习篇-习题解答-第2章

习题解答第二章实践题部分请分析你的家用计算机，以你的硬件设备来计算可能产生的耗电量，最终再以计算出来的总瓦数乘上你可能运行的时间，以推估出一年你可能会在你的这台主机上面花费的电费？功率：一般家用台式机功率在230w到300w之间，取300w。每天工作时间：20小时20×365×300÷1000=2190度以每度电0.5元算，一年电费是1095元！问答题部分一台计算机主机是否只要CPU够快，整体速度就会提高？不是。整体速度的快慢与整体系统的最慢的那个设备有关。CPU再快，其他

2021-03-03 14:48:09 182

原创鸟哥-Linux私房菜-基础学习篇-习题解答-第1章

习题解答第一章实践题部分：请上网找出目前Linux内核的最新稳定版与开发中版本的版本号码，请注明查询的日期与对应的版本。Linux的内核版本有两种：稳定版与开发版；Linux内核版本号是由3个数字构成：a.b.ca：目前发布版的内核主版本。b：偶数表权示稳固版本；奇数表示开发中版本。c：错误修补的次数。其中第一个数字是主版本号，第二个数字是次版本号，第三个数字是修订版本号。(注：3.10版本之后就不再用奇数、偶数的编号格式了，所以百度回答的结果5年前还可以适用）2021年3月2日查询

2021-03-02 17:36:28 919

原创鸟哥-Linux私房菜-基础学习篇-习题解答-第0章

写在前面现如今，接触人工智能行业，或者相关行业的非计算机专业人员，都有对Linux系统的学习有一定的需求。关于Linux系统的学习网上有很多的教程，大部分的教程都是直接使用shell来敲命令行，好其名曰是在实践中学习。但是，Linux系统它是一个系统化的知识体系，费劲千辛万苦，把Linux系统装好之后，就开始敲命令，很容易让人知其然，而不知其所以然，容易在众多的命令行中迷失。写这个习题解答的初衷是，我在看了这本书之后，发现这是一本很好的讲知识体系的一本书，非常适合初学者。我之前配置了一个深度学习的工作站

2021-03-01 16:30:14 511 3

原创《Robotics,Vision and Control-2nd Edition》——Learning with Me, day 2

第一章简要介绍本书开始从机器人的历史开始介绍，内容较多，有兴趣的可以看机器人领域大牛Oussama Khatib的专著——机器人学手册，这本书内容极为详尽！有时候一些比较繁琐的内容，我就只看插图。这种方法在鉴别论文的好坏也有用处，一般一篇好的论文，其插图一定极为完美。在这里仅展示一些书中的插图内容。（版权归原书作者所有）下面带大家一起领略以下本书的精美图片。第二章位置和方向的表示...

2021-03-01 14:17:57 781 1

原创《Robotics,Vision and Control-2nd Edition》——Learning with Me, day 1

今天给大家介绍一本新书，名字叫–Robotics,Vision and Control-2nd Edition。网上可以搜到这本书的免费电子版。作者是Peter Corke，我是通过Matlab软件中的Robotics Toolbox认识他的，他是该工具箱的作者，读者可以通过其个人网站petercorke.com更加了解这个大牛。大概每一个从事机器人行业的人都知道该工具箱和另外一个叫Robtics Control Toolbox，后者是Matlab官方开发的工具箱。Peter Corke曾经在采访中被

2021-02-12 21:56:15 2795 5

翻译 Deep Reinforcement Learning Hands-on-2nd-edition 第一部分

一、写在前面的一些话本书的第一版于2018年出版，2020年1月份第二版面世（英文版）。作者是一个俄罗斯人Maxim Lapan，我们就叫他马克思姆吧，一个非常俄罗斯的名字。马克西姆的简介中有一句话，我认为可以解释我翻译此书的原因——“He has the ability to explain complicated things using simple words and vivid examples.”相信每个入门强化学习的同学，看了很多的书和论文，但是对于一些基本概念（如：value fun.

2021-01-20 16:40:07 2453 15

原创使用photoshop批量处理大量照片（1000张以上）方法介绍

一. 使用工具软件版本：photoshop2020电脑：任意一款内存8g及以上电脑。（处理的过程中比较消耗内存空间）二. 方法流程1. 打开一张你要处理的图片。2. 窗口-动作，调出以下窗口。图中按钮按下，创建新的动作。（可以看到软件已经自带了一些批处理命令）红色圆点标识亮起，开始对所有的操作做记录。（类似于录屏）3. 操作图片。（图片要改为RGB格式，否则图片不可裁剪操作，具体在图像-模式中可以看到）以一张声呐图片（已处理过）做例子，需要截取图中我们感兴趣的扇形区部分。a)

2021-01-05 17:27:08 13202

原创解决ROS运行python程序报错：ModuleNotFoundError: No module named ‘rospkg‘成功解决方案

环境：ubuntu20.04, ROS版本：noetic, 1.5.8参考ROS answers: https://answers.ros.org/question/302967/importerror-no-module-named-rospkg/上面的大意是：ubuntu系统中安装过anaconda，并把bin/文件下的可执行文件放到了环境变量(PATH)下，当运行ros下的python程序时，会默认使用anaconda的python解释器。报错的原因就出在这里。可以使用echo $PATH,查

2020-10-08 11:42:56 3602 3

翻译在MDP（Markov decision process）环境中使用强化学习方法

此示例显示了如何训练Q-Learning 代理人（Agent)来解决通用Markov决策过程（MDP）环境。MDP环境看下图：每一个圆圈代表一个状态在每一个状态有两个选择（decision）：上，下代理人从状态1出发代理人获得的奖励与图中箭头数字相等训练目标是获得最大的累积奖励matlab代码如下：(已测试通过）###创建MDP环境#该环境有8个状态和2个动作（“up”，“down”）MDP = createMDP(8,["up";"down"]);#要从上图建模转换，请修改MD

2020-09-09 14:57:35 512

翻译利用MATLAB的强化学习工具箱实现Q-Learning和SARSA算法

在网格世界（Grid World）环境中训练强化学习Agent（代理人）此示例显示了如何通过训练Q-learning和SARSA代理人来使用强化学习来解决网格世界环境。有关这些代理的更多信息，请分别参阅Q-Learning代理和SARSA代理。此网格世界环境具有以下配置和规则：一个由边界界定的5 x 5网格世界，有4种可能的动作（北= 1，南= 2，东= 3，西= 4）。代理从单元格[2,1]（第二行，第一列）开始。如果代理人到达单元格[5,5]的最终状态（蓝色），则代理商会获得+10的奖励。

2020-09-08 15:43:50 5018 14

翻译什么是强化学习，强化学习在控制系统中的应用以及matlab强化学习工具箱的介绍

一、Reinforcement Learning Toolbox介绍强化学习工具箱使用强化学习算法（包括DQN，A2C和DDPG）为训练策略（policy）提供函数和模块。您可以使用这些策略为复杂的系统（例如，机器人和自治系统）搭建控制器和开发决策算法。您可以使用深度神经网络，多项式或查找表来实施策略。该工具箱使您能够通过与MATLAB或Simulink模型所代表的环境进行交互来训练策略。您可以评估算法，使用超参数设置进行实验以及监视训练进度。为了提高训练效果，您可以在云，计算机集群和GPU（使用Par

2020-09-08 15:32:36 6474

原创关于Reinforcement Learning Toolbox的许可证问题一些解答

大家刚入门学习强化学习的过程中，应该会接触到MATLAB的Reinforcement Learning工具箱。目前做强化学习的主要是用python语言，已经基于python语言的开发环境来做。但是作为RL入门，MATLAB的RL工具箱也是一个很好的选择。国内很多MATLAB是使用的破解版，目前破解版的MATLAB中的许可证文件似乎对于RL工具箱不支持，测试以下代码：env = rlPredefinedEnv("BasicGridWorld");结果显示没有安装reinforcement learni

2020-09-08 15:14:31 1549 3

原创 Octave是什么，以及Octave online的使用（相当于open source的matlab)

一。MATLABMATLAB是美国MathWorks公司出品的商业数学软件，用于算法开发、数据可视化、数据分析以及数值计算的高级技术计算语言和交互式环境，主要包括MATLAB和Simulink两大部分。MATLAB是matrix&laboratory两个词的组合，意为矩阵工厂（矩阵实验室）。是由美国mathworks公司发布的主要面对科学计算、可视化以及交互式程序设计的高科技计算环境。它将数值分析、矩阵计算、科学数据可视化以及非线性动态系统的建模和仿真等诸多强大功能集成在一个易于使用的视窗环境

2020-08-31 11:21:01 5390

原创 Box2D的安装小结

一.Box2D是什么？Box2D是一个用于模拟2D刚体物体的C++引擎。zlib许可是一个自由软件授权协议，但并非copyleft。Box2D不是一种计算机编程语言，不需要又从变量、数据类型啊一大堆让人头痛的基础知识学起；也不是一种游戏编程软件，不需要复杂的安装与配置。它是一个强大的开源物理游戏引擎，用来模拟2D刚体物体运动和碰撞，由Erin Catto早在2007年用C++语言开发。Box2D集成了大量的物理力学和运动学的计算，并将物理模拟过程封装到类对象中，将对物体的操作，以简单友好的接口提供给开

2020-08-18 09:05:51 2513

翻译 pip install和conda install之间的区别

pip install和conda install之间的区别来源于官方网站的翻译**Conda和pip通常被认为是几乎相同的。**尽管这两个工具的某些功能重叠，但是它们是经过设计的，应用于不同的目的。Pip是Python包装管理局推荐的工具，可用于从Python软件包索引PyPI安装软件包。Pip安装打包为wheel或source分发包的Python软件。后者可能要求系统在调用pip成功之前已安装兼容的编译器以及可能的库。Conda是一个跨平台的软件包和环境管理器，可从Anaconda存储库以及Ana

2020-07-14 16:01:03 2867 1

weixin_42188287的博客