2021年01月_吨吨不打野

12月 11月 10月 09月 08月 07月 06月 05月 04月 03月 02月 01月

原创强化学习常见案例

入门强化学习的时候，看到许多教程都给了很多强化学习的例子，有些是视频，有些是线上一些可以自己改参数看效果的游戏，这里做一个归类整理有趣的强化学习视频小红小蓝捉迷藏的链接: https://openai.com/blog/emergent-tool-use/相应的视频应该是来自b站，（直接搜索emergent-tool-use 也会有很多类似的视频）【AI捉迷藏】初代天网？[中文字幕] Multi-Agent Hide and Seek 红球绿球链接：https://github.com/Padd

2021-01-28 16:58:34 5676 1

原创强化学习莫凡python——一些补充

1. RL分类model-free方法：对环境不了解，每次行动只能等环境的反馈才可以进行下一步model-based方法：由于已经对环境有一定的了解，所以每次在执行行动的时候可以预先想象到之后环境的反馈，来更好指导自己的决策。对环境的了解主要体现在：环境的奖励、环境的一些状态转移概率，这些内容是否已知基于概率的方法输出的是每个动作的概率，这时每个动作都有可能被选到基于价值的方法输出的每个动作的价值，这时只会选到价值最大的动作对于动作空间是连续值的场景来说，基于价值的方法是无能为力

2021-01-28 10:54:04 841

原创强化学习——股票预测项目复现

1.背景介绍之前学习百度强化学习7日打卡营-世界冠军带你从零实践时候，最后留下的一个大作业是股票预测环境：https://github.com/kh-kim/stock_market_reinforcement_learning，由于给出的一个推荐github项目是四年前，时间太久远，所以找了另一个，还是中文的，而且步骤看起来很详细。❤github项目地址：https://github.com/wangshub/RL-Stock所以在经历失败的复现：https://github.com/forrest

2021-01-28 10:53:34 7583 8

原创强化学习PARL——5. 基于连续动作空间上方法求解RL及大作业

个人理解：离散：可数（整数表示的）连续：不可数（小数/浮点数表示的）这里一共有四个网络，Q网络以及它的target_Q网络，策略网络以及它的target_P网络，两个target是为了稳定计算，每隔一段时间复制一下参数，投入到评估网络使用。target_Q是为了稳定计算Q_target中的Qwˉ(s′,a′)Q_{\bar{w}}(s^{'},a^{'})Qwˉ(s′,a′)，而其中的a′=μθ(s′)a^{'}=\mu_{\theta}(s^{'})a′=μθ(s′)则是.

2021-01-20 14:17:02 631

原创强化学习PARL——4. 基于策略梯度方法求解RL

基于价值的策略是一般是先计算出价值（比如Q 状态动作价值），根据价值去决定策略Value-based的算法的典型代表为Q-learning和SARSA，将Q函数优化到最优，再根据Q函数取最优策略。基于策略的则不再计算价值，直接输出动作概率，动作的选择不再依赖于价值函数，而是先根据一个策略走到底，最后根据最终的收益决定这个策略的好坏Policy-based的算法的典型代表为Policy Gradient，直接优化策略函数。第一个区别：基于价值的，是先求出最优的Q，然后去间接得到ac..

2021-01-19 17:44:09 466

原创强化学习PARL——3. 基于神经网络方法求解RL

1. 背景知识由于Q表格无法应对状态过多的问题，所以这里提出值函数近似这一方式DQN两大创新点：经验回放：充分列用off-policy（样本所带来的经验不是立马更新到Q表格的，而是经过一个策略，所以像离线更新一样，）每隔一段时间，更新一下2. DQN算法DQN的算法其实很简单，引入神经网络来得到Q3. DQN代码Parl实现可以看到，这里输入一个 obs(状态/观测值)经过一个简单的3层全连接网络输出act_dim个向量（每个向量应该是128维的。。。）也就

2021-01-19 15:09:23 764 6

原创强化学习PARL——2. 基于表格型方法求解RL

1. Sarsa全称是：state action reward state action

2021-01-19 09:17:45 453

原创强化学习PARL——1. 简单认识

这个教程参考的是百度PaddlePaddle的RL系列教程：https://aistudio.baidu.com/aistudio/projectdetail/1445501背景介绍第一章节属于基础内容，第二课的数学知识总结的很好1. 开始1.1 概念认识1.1.1 强化学习 vs 其他强化学习与监督学习的区别强化学习、监督学习、非监督学习是机器学习里的三个不同的领域，都跟深度学习有交集。监督学习寻找输入到输出之间的映射，比如分类和回归问题。非监督学习主要寻找数据之间的隐藏关系，比如聚

2021-01-12 11:47:05 6165 10

原创 Windows10系统pytorch、cuda11.0、cuDNN安装

cuda安装参考：win10安装CUDA和cuDNN的正确姿势

2021-01-08 17:20:53 21370 7

原创 pip安装常出现的错误及解决方案

1. Read timed out 超时问题一般windows系统出现这个问题，可以在命令后面加上--user参数，类似：pip install pyinstaller # 上句报超时错误pip install pyinstaller --user# 一般就可以下载了使用–help去查看–user的作用大意就是：把这个包换个地方安装参考：安装私有的包问题你想要安装一个第三方包，但是没有权限将它安装到系统Python库中去。或者，你可能想要安装一个供自己使用的包，而不是系

2021-01-06 17:25:36 28916

原创 surface电脑分辨率问题/字体太小

1. 某些软件字体显示很小例如，我X版的ps，字体显示就非常诡异，电脑是真的好，但是体验是真的一般。。。参考百度知道文章：Surface高分辨率屏幕下软件字体太小的解决方案以我的ps为例：点击photoshop快捷方式，右键->属性，在兼容性Tab中找到更改高DPI设置（不需要使用兼容性运行的）然后打钩：替代高DPI缩放行为：缩放执行，选择系统，代替应用程序设置好，确定之后，再打开PS就OK了2. 修改整个系统字体大小确实高分辨率字看着很小感觉很不舒服，没有mac感觉好，搜了一波，

2021-01-06 16:18:50 3083

原创 pycharm配置环境出现unsupported

去年编程的时候其实就看到有一些提示信息说，2021年元旦之后，python3.5就不再支持了。没想到今天配置新电脑，下载了新的pycharm版本的时候，就遇到这个问题如果一个环境前面显示了 unsupported那表明，这个版本太老了，不再被支持。参考Pycharm社区文档：Configure a Python interpreter当pycharm不再支持一个过期的python版本时，对应的python编译器会被标记为unsupported...

2021-01-06 16:03:31 25995 11

原创上班要了解的一些法律条例

相关法律法规文件名称相关的一些法律条例：中文名发布单位施行时间目的《中华人民共和国劳动法》第八届全国人大常委会第八次会议1995.1.1保障劳动者合法权益《中华人民共和国劳动合同法》第十届全国人大常委2008.1.1劳动合同的法律条文《中华人民共和国劳动合同法实施条例》国务院2008.9.18是为了贯彻实施《中华人民共和国劳动合同法》制定《职工带薪年休假条例》国务院2008.1.1依据劳动法和公务员法制定《机关事业单位工作人员带薪

2021-01-04 10:43:13 1547 1