ThousandsOfWind-CSDN博客

原创算法：有向图强连通分量（2020网易互联网秋招笔试题4，教授）

有向图强连通分量 - 2020网易互联网秋招笔试题4题目暴力1号（邻接矩阵）暴力2号（邻接表）2次DFS求解1次DFS求解题目网易互娱笔试题：假设教授A欣赏B，B欣赏C，则认为A也欣赏C。输入第一行两个整数 n m，分别表示教授人数，欣赏关系数量余下m行，每行两个整数 a b，表示教授a欣赏b。输入样例：5 61 32 13 23 54 55 4输出：4暴力1号（邻接矩阵）考试提交的版本，直接迭代求解邻接矩阵（超时def solve(N:int, Edges:[[i

2020-08-10 18:13:23 285

原创强化学习策略梯度梳理-SOTA下（A2C，A3C 代码）

强化学习策略梯度梳理-SOTA上策略梯度SOTAA3C （Asynchronous Advantage Actor critic）QAC -> A3C策略梯度SOTA这个部分主要参考周博磊老师的第九节的顺序主要参考课程 Intro to Reinforcement Learning，Bolei Zhou相关文中代码 https://github.com/ThousandOfWind/RL-basic-alg.git参考到了pytorch a3cA3C （Asynchronous Adva

2020-07-27 20:23:48 818

原创强化学习策略梯度梳理4-SOTA中（DDPG TD3 SAC SAC-dicrete 附代码）

强化学习策略梯度梳理-SOTA下强化学习策略梯度梳理-SOTA下进阶方向2Q-learningDDPG连续空间TD3SAC强化学习策略梯度梳理-SOTA下同前文这个部分仍然参考周博磊老师的第六节的顺序主要参考课程 Intro to Reinforcement Learning，Bolei Zhou相关文中代码 https://github.com/ThousandOfWind/RL-basic-alg.git进阶方向2Q-learning这里标出Q-learning只是为了强调DQN的ta

2020-07-19 09:54:01 3171 1

原创强化学习策略梯度梳理3-SOTA上（附PPO2代码）

强化学习策略梯度梳理-SOTA一级目录策略梯度方法总结进阶方向1Trust region policy optimization（TRPO）一级目录这个部分主要参考周博磊老师的第六节的顺序主要参考课程 Intro to Reinforcement Learning，Bolei Zhou相关文中代码 https://github.com/ThousandOfWind/RL-basic-alg.git策略梯度方法首先策略的优化目标是J(θ)=Eτ∼πθ[R(τ)]J(\theta)=\math

2020-07-09 14:46:27 705 1

原创强化学习策略梯度梳理2 - AC（附代码）

策略梯度梳理 ACActor-CriticActor-Critic Policy Gradient （QAC）QAC with shared networkone-step AC主要参考文献 Reinforcement Learning: An introduction，Sutton主要参考课程 Intro to Reinforcement Learning，Bolei Zhou相关文中代码 https://github.com/ThousandOfWind/RL-basic-alg.gitAct

2020-07-07 13:26:16 1025

原创强化学习策略梯度梳理1 - REINFORCE（附代码）

策略梯度梳理策略梯度（PG）策略梯度（PG）基础以REINFORCE为例主要参考文献 Reinforcement Learning: An introduction，Sutton主要参考课程 Intro to Reinforcement Learning，Bolei Zhou

2020-07-06 13:01:08 2770

原创注意力机制：认知模型与计算机应用

注意力机制：认知模型与计算机应用“注意力机制”在风靡计算机神经网络设计之前，首先是一种被广泛接受的人类认知方法。本调研文稿将首先从人类认知出发，讨论几种经典的人类注意力模型，和人类脑的研究的进展；然后我们将讨论计算机领域对“注意力”概念的借用与实现，从NLP，CV，RL三大领域说明目前计算机模拟和应用attention的方法。

2020-03-20 10:25:42 1963

翻译强化学习第二版（翻译）第一章导论第六节小结 1.6 Summary

强化学习是一种理解和自动进行目标导向学习和决策的计算方法。它与其他计算方法不同之处在于它强调了代理与环境的直接交互学习，而不依赖于监督或完整的环境模型。在我们看来，强化学习是第一个认真处理在学习与环境的互动时产生的计算问题，以实现长期目标的第一个领域。强化学习使用马尔可夫决策过程的正式框架来定义学习代理与其环境之间的交互作用，包括状态、动作和收益。这个框架用简单的方法来表示人工智能...

2018-04-01 10:07:33 654

翻译强化学习第二版（翻译）第一章导论第五节拓展例子：井字棋 1.5 An Extended Example: Tic-Tac-Toe

(注：尝试了很多次就是没有办法发全文，迷)为了说明强化学习的一般概念，并与其他方法进行对比，我们接下来将更详细地考虑一个示例。想想我们熟悉的孩子玩的井字棋。棋手在三行三列的棋盘上博弈，一个棋手下X，另一个下O。若X或O的连续三个棋子落于一行或一列或同一斜线上则获胜；若棋盘被填满也不能决出胜负则为平局。让我们假设，我们是在和一个不完美的棋手比赛，他的战术有时是不正确的，并且允许我们获...

2018-03-30 16:16:55 1974

翻译强化学习第二版（翻译）第一章导论第四节局限性和适用范围 1.4 Limitations and Scope

从前面的讨论中，应该清楚的是，强化学习很大程度上依赖于状态的概念。他既作为对策略和值函数的输入，也作为模型的输入和输出。非正式地，我们可以把状态看作是传达给代理的某种特定时期“环境如何”的信号。状态的形式定义在第3章中给出的马尔可夫决策过程的框架中给出的。然而，更普遍的是，我们鼓励读者遵循非正式的含义，并将状态视为代理对其环境所能获得的任何信息。实际上，我们假设状态信号是由某些预处理系统产...

2018-03-29 16:27:17 1434 1

翻译强化学习第二版（翻译）第一章导论第三节强化学习的要素 1.3 Elements of Reinforcement Learning

在代理和环境之外，强化学习系统一般有四个主要元素：一个策略，收益信号，价值函数，和一个可选的环境模型。策略定义了学习代理在给定时间内的行为方式。简单来说，政策是从环境到在这些状态下采取的行动的映射。它符合心理学中所谓的一系列刺激反应规则或关联。在某些情况下，策略可能是一个简单的函数或查找表，而在其他情况下，它可能涉及到大量的计算，如搜索过程。该策略是增强学习代理的核心，因为它本身就足以确定...

2018-03-27 21:18:55 777 1

翻译强化学习第二版（翻译）第一章导论第二节例子 1.2 Examples

思考其发展中的一些例子和可能的应用是理解强化学习的一个好方法。象棋大师落字。这个决定既出于他的计划——期待的回复和逆向回复，也出于对特定位置和移动及时直觉的判断。自适应控制器实时调节炼油厂操作的参数。控制器在指定的边际成本的基础上权衡产量/成本/质量达到最优化，而不严格遵守由工程师提出的初始值。一头瞪羚在出生后几分钟挣扎着站起来。半小时后，它就能以每小时20英里的速度飞奔。一个家政移动机器...

2018-03-27 20:24:58 1165 1

翻译强化学习第二版（翻译）第一章导论第一节强化学习 1.1 Reinforcement Learning

强化学习是就是在学习怎么做才能最大化奖励信号，既如何建立情景-动作映射（map situations to actions）。学习者没有被告知应该采取什么行动，而是必须通过尝试找到获得最大的回报的动作。在最有趣和最具挑战性的情况下，行动可能不仅影响眼前的收益，而且影响下一个情景，并由此影响所有后续的收益。试错搜索（trial-and-error search）和延迟收益是强化学习最重要的两...

2018-03-26 18:12:18 2439 1

翻译强化学习第二版（翻译）第一章导论（前言）Chapter 1 Introduction

当我们思考学习的本质时，我们首先想到的是通过与环境互动来学习。当婴儿玩耍时，挥舞手臂或四处看，它没有明确的老师，但他可以通过直接的感觉与环境联系。他可以通过这种联系获得大量关于因果关系，行动的结果，以及如何实现目标的信息。在我们的生活中，这样的交流无疑是我们的环境和我们自己知识的主要来源。无论我们是学开车还是交谈，我们都可以敏锐的意识到我们的环境对我们所做的事情将作出什么样的反应，并且我们...

2018-03-26 11:39:30 710

翻译强化学习第二版（翻译）第二版前言

（由百度翻译修改而来，尽量保证逻辑通顺，建议以原文为主）自本书第一版出版以来的二十年里，人工智能取得了巨大的进步，这在很大程度上得益于机器学习的进步，包括强化学习的进步。虽然现有的令人印象深刻的计算能力是这些进步的主要原因，但理论和算法的新发展也推动了这些力量的发展。面对这一进步，我们的1998本书的第二版早就应该出现了，我们终于在2013开始了这个项目。我们的第二版的目标与我们的第一个目...

2018-03-26 00:02:04 4297

原创 poj 2255 Tree Recovery，已知前序中序求后序

树就是很烦

2018-03-11 23:08:54 145

原创 1009 说反话，stl

1009 说反话其实题目很简单，就是为了尽快熟悉stl#include <iostream>#include <vector>#include <string>#include <algorithm>using namespace std;int main(int argc, const char * argv[]) { str...

2018-03-11 21:52:41 189

原创求最大递增串，结构体+数组实现了谜样的数组式静态链表

2018-03-09 20:29:13 196

原创机器学习-周志华，习题1.1，答案探究

1.1版本空间1.2 感觉上，可能的假设应当就是不同的版本空间，则对应了如图1.2的3种版本空间1.3 看不懂题目意思。设置阈值，或者排除异类后，按优先级具有偏好。1.4 不能理解，等回过头来再看这题吧。

2018-02-05 23:48:56 574

原创 ZOJ1005 Jug问题运行结果有误？

ZOJ1005 Jug问题题目In the movie “Die Hard 3”, Bruce Willis and Samuel L. Jackson were confronted with the following puzzle. They were given a 3-gallon jug and a 5-gallon jug and were asked to fill the 5-ga

2017-07-03 10:34:41 257

原创在Mac系统上配置opencv 使用Xcode初步应用

在Mac系统上配置opencv，并在Xcode中简单应用，献给所有如我一般的小白们

2016-10-02 17:58:51 460

thousandsofwind的博客