__何枝-CSDN博客

原创 GFS（Genetic Fuzzy Systems）—— 基于专家先验规则库和遗传算法相结合的智能体决策算法

文章目录1. FIS 系统（Fuzzy Inference Systems）1.1 什么是 FIS 系统？1.2 使用 FIS 算法的几个步骤2. GFS 系统（GA + FIS）在大规模的多智能体集群协同任务中，DRL往往很难取得较好的效用。一旦智能体数目规模变大，联合行为空间和联合观测空间规模就会变得巨大无比，因此在许多大规模的多智能体协同任务中，基于规则的控制器是解决规模庞大问题的一个有效的方法。但基于规则的方法缺陷在于：面对一个陌生场景下人们往往很难以制定出一套较好的规则库，这里的规则是指在 “

2020-06-02 10:53:28 14510 2

原创 DeepMind 的马尔可夫决策过程（MDP）课堂笔记

DeepMind Teaching by David Silver视频课程链接（Youtube资源，需翻墙）：https://youtu.be/lfHX2hHRMVQ1. 马尔可夫过程（Markov Processes）马尔可夫过程是一种形式化描述强化学习过程中的环境的数学模型，与字面理解的意思可能有所不同，马尔可夫过程并没有涉及到跟“过程”相关的问题，仅仅只是对“环境”进行了定义。一个问题...

2020-04-01 13:18:27 6787

原创李宏毅Reinforcement Learning强化学习入门笔记

强化学习入门笔记Concepts in Reinforcement LearningDifficulties in RLA3C Method Brief IntroductionPolicy-based Approach - Learn an Actor (Policy Gradient Method)1. Decide Function of Actor Model (NN? ...)2. De...

2019-12-13 17:15:01 5752

原创 PaddleNLP实战——信息抽取（InfoExtraction）

- 文章目录 -1. 信息抽取任务是什么？2 基于PaddleNLP的信息抽取任务2.1 训练任务概览2.2 Predicate列表2.3 SPO列表2.4 代码解析1. 信息抽取任务是什么？在NLP任务中，通常当我们拿到一段文本时，我们希望机器去理解这段文本描述的是什么内容，进而完成一些特定的任务。例如，现在有这么一句话：今日，在玩家们的期待中，王者荣耀终于上架了李白的新皮肤——凤求凰。这句话中具体描述了什么事件呢？人类一看就知道，哦，王者出了一款李白的新皮肤。没错，这句话的核心就是「王者

2021-12-06 17:38:29 8421

原创数据挖掘在轨迹信息上的应用实验

文章目录1. 实验概览2. 数据集下载3. 数据预处理3.1 异常点去除3.2 停留点检测与环绕点检测3.3 轨迹分段4. 基于轨迹信息的数据挖掘4.1 路口检测4.1.1 地图分割与轨迹点速度计算4.2 偏好学习通常，我们将一个连续的GPS信号点序列称为一个轨迹（Trajectory），在拥有GPS数据轨迹的情况下，我们能通过这些数据信息挖掘出哪些有效信息是数据挖掘在轨迹信息上的重要研究内容。在该实验中我们使用UCI上公开数据集，利用该轨迹数据集尝试挖掘其中的隐藏信息，在信息挖掘之前，我们需要对原始数

2021-04-03 00:52:41 2673 3

原创【COMA】一种将团队回报拆分为独立回报的多智能体算法

文章目录1. COMA 解决了什么问题（Motivation）2. COMA 怎么解决独立回报分配问题（Method）2.1 核心思想 counterfactual baseline 的提出2.2 算法大框架 —— 基于 AC 框架的 CTDE（Centralized Training Distributed Execution）模式2.3 Actor 网络设计2.4 Critic 网络设计2.5 训练流程（Update Parameters）3. COMA 效果COMA 是一种基于 Policy-Ba

2021-03-05 16:45:40 6767 7

原创【QMIX】一种基于Value-Based多智能体算法

文章目录1. QMIX 解决了什么问题（Motivation）2. QMIX 怎样解决团队收益最大化问题（Method）2.1 算法大框架 —— 基于 AC 框架的 CTDE（Centralized Training Distributed Execution）模式QMIX 是一种基于 Value-Based 的多智能体强化学习算法（MARL），其基本思想来源于 Actor-Critic 与 DQN 的结合。使用中心式学习（Centralized Learning）分布式执行（Distributed

2021-02-28 15:03:47 8626 6

原创 MultiProcessing中主进程与子进程之间通过管道（Pipe）通信

Python 中 Multiprocessing 实现进程通信1. 如何建立主进程与子进程之间的通信管道？2. 为什么一定要将Pipe中的某些端close()?本文参考自：python 学习笔记 - Queue & Pipes，进程间通讯1. 如何建立主进程与子进程之间的通信管道？在Python中很多时候需要用到多进程并行编程，由于每个进程都拥有自己的独立内存空间，无法像线程一样通过访问全局变量来共享数据。因此，进程之间的通信比线程通信要更加的复杂。在 Multiprocessing 包中

2020-11-10 19:40:13 3574

原创多智能体连续行为空间问题求解——MADDPG

目录1. 问题出现：连续行为空间出现2. DDPG 算法2.1 DDPG 算法原理2.2 DDPG 算法实现代码MADDPG 是一种针对多智能体、连续行为空间设计的算法。MADDPG 的前身是DDPG，DDPG 算法旨在解决连续性行为空间的强化学习问题，而 MADDPG 是在 DDPG 的基础上做了改进，使其能够适用于多智能体之间的合作任务学习。本文先从 DDPG 引入，接着再介绍如何在 DDPG 算法上进行修改使其变成 MADDPG 算法。1. 问题出现：连续行为空间出现Q-Learning 算

2020-05-25 16:52:00 7223 12

原创 Sigmoid函数与逻辑回归

文章目录(1). Sigmoid函数的由来——伯努利分布的衍生物1.1 为什么会有 sigmoid 函数的出现？1.2 sigmoid 函数推导过程1.3 sigmoid 函数求导(2). 逻辑回归（Logistic Regression）2.1 逻辑回归算法的最终本质——求决策边界2.2 逻辑回归算法中的重要组成部分(1). Sigmoid函数的由来——伯努利分布的衍生物1.1 为什么会有 ...

2020-05-07 22:31:04 8565 1

原创高效性跨平台分布式软件开发技术——gRPC

文章目录1. gRPC（google Remote Procedure Call）技术 —— 高效性地跨平台、跨语言开发2. 基于 python 实现 gRPC 框架2.1 一个 gPRC 项目必须包含的几大部分2.2 helloworld.proto 文件——定义全局可调用函数及其参数数据结构2.3 server.py 文件——实现服务器端的全局可调用函数2.4 client.py 文件——调...

2020-05-05 15:58:44 13672

原创被AI人机疯狂单杀？王者荣耀AI“绝悟”亲测体验

文章目录（一）如何评测“绝悟”的智能程度？（二）“绝悟”个体操作能力分析2.1 草丛埋伏2.2 越塔强杀2.3 技能避伤2.4 技能combo（三）“绝悟”团队意识能力分析3.1 团队支援3.2 团队控龙3.3 反野意识（四）“绝悟”的一些“愚蠢行为”4.1 恋泉行为4.2 莽夫行为4.3 滞留行为4.4 自信回头2019年12月20号，腾讯AI Lab发布了一篇paper，称他们利...

2020-05-01 17:45:06 4678

原创基于文本知识库的强化学习技术——Learning to Win by Reading Manuals in a Monte-Carlo Framework

Learning to Win by Reading Manuals in a Monte-Carlo Framework论文链接：http://people.csail.mit.edu/branavan/papers/acl2011.pdf文章目录Learning to Win by Reading Manuals in a Monte-Carlo Framework1. 背景介绍2. 将...

2020-04-24 18:48:18 726

原创 CLion 中使用 C++ 版本的 OpenCV

配置环境：Windows 10CLion 2020OpenCV 3.4.1MinGW-w641. 下载 CLion 并配置好 MinGWCLion 下载地址：https://www.jetbrains.com/clionMinGW 安装包下载地址：链接：https://pan.baidu.com/s/1c00uHbcf_jGeDDrVg99jtA 提取码：at0p运行 Mi...

2020-04-18 15:16:23 2742 1

原创如何在Clion中使用C++调用Python代码

在很多时候，我们需要在一个c++工程项目中调用部分Python代码，这就需要我们实现Python和C++之间的交互。交互方式有两种：1. 依靠 TCP 建立的网络通信交互；2. 嵌入式混合语言编程（Embedding Code）。这里主要介绍后者，如何在CLion下使用C++调用Python模块。（一）环境搭建安装CLion并配置好编译环境（下载地址：https://www.jetbrai...

2020-04-18 14:23:58 3147 8

原创 Pytorch快速入门笔记

Pytorch 入门笔记1. Pytorch下载与安装2. Pytorch的使用教程2.1 Pytorch设计理念及其基本操作2.2 使用torch.nn搭建神经网络1. Pytorch下载与安装在Pytorch官网进行官方提供的下载方法：Pytorch官网，打开官网后选择对应的操作系统和cuda版本。如果需要安装GPU版本的Pytorch则需要下载对应CUDA版本的Torch版本，例如我装的...

2020-01-14 11:08:56 1099

原创利用Deep Reinforcement Learning训练王者荣耀超强AI

利用Deep Reinforcement Learning训练王者荣耀超强AI（一）知识背景（二）系统架构（三）算法结构3.1 Target Attention3.2 利用LSTM学习技能连招释放3.3 Decoupling of Control Dependencies3.4 Action Mask3.5 Dual-Clip PPO（四）实验配置 ...

2019-12-28 20:12:32 19794 5

原创 RNN入门笔记

本笔记来源自Youtube李宏毅老师的RNN视频归纳，主要分为以下几个知识点:RNN 的特点RNN 的几种实现方法 (Simple RNN, LSTM)RNN 的训练不稳定性RNN 的keras实现 (定长和变长输入案例)Recurrent Neural NetworkFeature of RNNDiffer from normal Neural Network, Recurre...

2019-12-24 19:17:40 5369

原创 COMA（二）：Counterfactual Multi-Agent Policy Gradients 论文讲解

Counterfactual Multi-Agent Policy Gradients论文链接：https://arxiv.org/pdf/1705.08926.pdf1. 问题提出（解决了什么问题？）在现实世界中，有非常多的问题需要多个单位之间的“合作”才能完成任务，这就需要学习一种非中心式策略的控制系统，即每个agent有着属于自己的决策大脑，而非靠拥有全局信息的决策系统下达指令（毕竟...

2019-12-18 00:32:47 5886 2

原创 COMA(一)： Learning to Communicate with Deep Multi-Agent Reinforcement Learning 论文讲解

Learning to Communicate with Deep Multi-Agent Reinforcement Learning 论文讲解论文链接：https://papers.nips.cc/paper/6042-learning-to-communicate-with-deep-multi-agent-reinforcement-learning.pdf（这篇论文是COMA三部曲中...

2019-12-15 16:51:39 3213 4