vivimiu-CSDN博客

原创 Generative Adversarial Imitation Learning分析

目录Generative Adversarial Imitation Learning论文分析AbstractIntroductionBackgroundCharacterizing the induced optimal policyPractical occupancy measure matchingGenerative adversarial imitation learningGenerative Adversarial Imitation Learning论...

2022-02-09 21:20:24 1430

原创 Inverse Reinforcement Learning 总结

文献逆向强化学习（Inverse Reinforcement Learning）简介 - 知乎Deep RL Bootcamp Lecture 10B Inverse Reinforcement LearningGuided Cost Learning: Deep Inverse Optimal Control via Policy OptimizationGenerative Adversarial Imitation LearningLearning human behaviors

2022-02-03 23:30:10 1709

原创 No module named ‘sklearn.externals.joblib‘解决方法和GA/DE算法代码

No module named ‘sklearn.externals.joblib‘ 解决方法-python黑洞网https://www.pythonheidong.com/blog/article/496225/318c682f7df69d472852/之前各种方法试了一遍都不成功，通过以下方法解决了找到你的python/anaconda的安装目录路径\Lib\site-packages\sklearn\utils然后复制_joblib到路径\Lib\site-packages\sklearn\

2021-12-13 15:34:44 2228 1

原创 Forecasting Open Source Tool

Forecasting Open Source ToolGitHub 链接：https://github.com/microsoft/FOST大致内容：预处理模块旨在处理不同的数据情况，目前 FOST 设计了子模块来处理缺失值、未对齐时间戳和特征选择等问题。FOST 包含针对不同主流深度学习模型（例如 RNN、MLP 和 GNN）的实现，以在各种自定义数据上获得更好的性能。进一步的模型实现，如 Transformer、N-beats 正在开发中。Fusion 模块旨在自动选择和集成模型预测。

2021-12-08 08:43:02 963 1

原创强化学习收敛证明压缩映射原理

向量空间和压缩映射证明https://zhuanlan.zhihu.com/p/36295613空间不一定都是有限维向量空间，也可以是函数空间，函数空间里面两个函数的距离可以被定义成相差取绝对值再积分。证明的思路是(1):先找到不动点 (2)再证明唯一性。先假设还有一个不动点而最后指出这个假设的不动点和原来的不动点是一样的，就可以说明唯一策略估计https://zhuanlan.zhihu.com/p/68407730第1步是策略估计，即计算每个状态的价值，任意状态的价值函数定义如下，实

2021-07-14 22:04:17 1985

原创以公共交通为导向的开发（transit-oriented development，TOD）研究总结

TOD定义：以公共交通为导向的发展模式。其中的公共交通主要是指火车站、机场、地铁、轻轨等轨道交通及巴士干线，然后以公交站点为中心、以400～800米（5～10分钟步行路程）为半径建立中心广场或城市中心，其特点在于集工作、商业、文化、教育、居住等为一身的“混合用途”，使居民和雇员在不排斥小汽车的同时能方便地选用公交、自行车、步行等多种出行方式。城市重建地块、填充地块和新开发土地均可以TOD的理念来建造，TOD的主要方式是通过土地使用和交通政策来协调城市发展过程中产生的交通拥堵和用地不足的矛盾。TOD.

2021-04-16 17:10:22 1881

原创 anaconda 安装后只有Prompt 的问题

之前winpython出问题了，想重装个Anaconda，结果安装后只有Anaconda Prompt 其他四个都没有。网上看到方法：1，镜像和官网都试了最新的win版本 ——不行2，下载了清华镜像一个的指定版本 ——解决了Anaconda3-4.3.1-Windows-x86_64后面的方法似乎也可以，没有尝试3，输入代码https://www.jia...

2019-02-27 16:57:16 6538

原创 Policy Gradient 策略梯度相关算法

Policy Gradient策略梯度基本思想策略梯度算法不采用迂回方式更新策略，而是直接计算策略可能更新的方向。根据策略梯度算法，可以扩展得到actor critic方法。策略梯度算法推导TRPOtrust region policy optimization置信区域策略优化PPOproximal policy optimization近端策略优化...

2018-12-06 13:04:30 1206

转载 Deep Reinforcement Learning 文献综述

转载地址：http://blog.csdn.net/lqfarmer/article/details/72868471目录值函数策略离散控制连续控制多智能体文本处理计算机视觉机器人游戏蒙特卡洛逆强化学习多任务和迁移学习搜索优化层次化学习相关的文章值函数Model-Free Episodic Control, C. Blund...

2018-12-05 21:36:15 1519

转载 Policy Iteration & Value Iteration

值迭代的缺点：当多个策略有同样的v(s)的时候，可能无法收敛，循环不会停止。In Policy Iteration algorithms, you start with a random policy, then find the value function of that policy (policy evaluation step), then find an new (imp...

2018-12-05 21:15:12 1753 1

转载 DQN玩FlappyBird的核心代码和注释

文章的转载地址http://lanbing510.info/2018/07/17/DQN.html# File: FlappyBirdDQN.pyimport cv2import wrapped_flappy_bird as gamefrom BrainDQN_Nature import BrainDQNimport numpy as npimport syssys.pat...

2018-12-05 12:10:15 2169

转载语音识别

原文地址：http://www.voidcn.com/blog/joey_su/article/p-2513632.html原始语音信号经过A/D转换得到数字信号，经过预加重提升高频成分，接着是加窗，对加窗后的信号进行两个方面的处理，一个方面是提取倒谱特征，即经过离散傅立叶变换后，对频谱幅度进行平方，通过梅尔滤波器组，再进行对数变换，最后进行离散傅立叶变换的逆运算得到倒谱特

2017-01-26 03:52:06 596

转载自动编码器模型和代码解释

CNN算法与程序研究 1) 深度学习基本理论方法http://wenku.baidu.com/view/2e630ddfc5da50e2524d7ff3 特征多，给出的信息多，识别准确性会提升。但是，计算复杂度增加，搜索的空间大，可以用来训练的数据在每个特征上就会稀疏。采用层次网络结构，BP一层隐层节点的浅层模型，带有一层隐层节点（如SVM、Boostin

2016-12-07 05:43:12 19024 5

转载机器学习算法简介和代码（P&R语言）

机器学习算法，P&R语言

2016-12-07 05:33:14 1687

原创深度学习资料总结

深度学习总结1. MIT在线学习网站http://www.deeplearningbook.org/ https://www.coursera.org/learn/hipython/supplement/8YtVH/1-1-can-kao-zi-liao公开课python 2. 机器学习和深度学习资料（200篇）编者按：本文收集了百来篇关于

2016-12-07 05:13:13 3223