2018年12月_BUPT-WT

12月 11月 10月 09月 08月 07月 04月 01月

原创重温强化学习之深度强化学习

1、简介输入特征和真实特征相距比较远，加一个深度学习提取源的特征2、基于值函数的深度强化学习意义：不用函数近似无法解决大规模的问题，用函数近似训练不稳定，首次证明了能够通过原始像素解决游戏问题，并且对所有游戏通用主要论文：Playing Atari with Deep Reinforcement Learning (...

2018-12-28 14:17:24 1130

原创重温强化学习之策略梯度算法

1、介绍这里仍考虑无模型的方法：策略是从值函数中导出的，使用贪婪的方法导出最优策略，使用e贪婪策略导出行为策略，直接参数化策略考虑之前强化学习分类：基于值函数的方法：学习值函数、用值函数导出策略基于策略的方法：没有值函数，学习策略 Actor-Critic:学习...

2018-12-28 09:07:57 3619

原创重温强化学习之函数近似

1、简介之前提到的方法目的是求值函数，通过值函数找打策略基于表格的方法：基于表格方法精确的描述每一个动作和状态的大小，表格大小会随着状态数量和动作数量快速膨胀，对于表格中某一项的更新不会影响到其它项的更新强化学习能够用来解决大规模的问题，例如围棋：256像素点数幂之前使用表格来表示值函数在大规模M...

2018-12-22 15:10:55 1160

原创重温强化学习之无模型学习方法：TD(lambda)

1、多步自举一步TD:TD(0)，白色圈V函数，黑色Q函数，后继状态V函数更新当前状态V函数，采样，智能体和环境进行交互。根据状态采取一个动作，转为后继状态，环境给一个奖励－－》采样一步得到后继状态MC 采样到终止状态。MC只采样一步，之后的状态利用之前的值函数进行对当前值函数的估计多步自举通过采样和自举的方法做一个权衡，TD(0)一步采样之后多步...

2018-12-16 11:01:37 8684 4

原创重温强化学习之无模型学习方法：时间差分方法

1、时间差分方法简介强化学习中最核心也是最新奇的想法混合DP和MC思想：与MC类似，TD也从历史经验中学习；与DP类似使用后继状态的值函数更新当前状态的值函数蒙特卡洛只是适用于片断性任务属于无模型方法未知P,R，需要交互，样本备份，需要充分的探索同时利用采样和贝尔曼方程可以从不完整的片段中学习(通过自举法) 可同时应用于片...

2018-12-15 23:06:23 947 1

原创重温强化学习之无模型学习方法：蒙特卡洛方法

1、无模型方法简介无模型属于学习方法的一种，(学习和规划),需要智能体和环境进行交互，一般采用样本备份，需要结合充分的探索MDPs中未知P,R－无模型交互是为了更加了解环境，了解状态动态规划是已经知道模型，没有模型通过采样的方法，也就是样本备份从经验中学习和动态规划的区别：无模型学习： 1、未知环境模型 2、需要与环境进行交互，有交互成...

2018-12-11 08:50:10 1057

原创重温强化学习之基于模型方法：动态规划

基于模型的强化学习，可以用动态规划求解动态规划要求知道马尔科夫五元组：状态集、动作集、状态转移矩阵、奖励、折扣因子－－－使用贝尔曼方程1、前言什么是动态规划？2、策略评价3、策略提升4、策略迭代(策略评价＋策略提升＋...)5、值迭代参考连接：...

2018-12-09 15:44:32 726

原创 Spider_douyin

1、打开抖音APP 2、点开一个用户 3、点击她的头像(带有＋号的地方)，查看它的主页4、点击右上角，如下图所示：5、点击转发，右上角，如下图所示：6、获取短连接，如下图所示：7、把复制的短连接放到写好的代码里面，就可以爬取这个小姐姐所有的短视频啦，如下图所示：8、等待一会，小姐姐所有的视频都会被下载下来，保存到demo...

2018-12-08 10:24:18 309

原创重温强化学习之马尔可夫决策过程(MDPs)

2018-12-08 09:27:01 3221

原创重温强化学习之强化学习简介

2018-12-08 09:09:09 368

原创重温强化学习之OpenAI经典场景

官网：http://gym.openai.com/envs/#classic_control经典应用1:CartPole-v1CartPole在OpenAI的gym模拟器里面。游戏里面有一个小车，车上有一根杆子。小车需要左右移动来保持杆子竖直。如果杆子的倾斜的角度大于15度，游戏结束。小车也不能移出一个范围(中间到两边各2.4个单位长度)，如下图所示：物理图解： ...

2018-12-06 07:55:10 1181

原创 python连接redis

# -*- coding: utf-8 -*- # @author:wt import pandas as pd import redis import time url4 = [] for i in range(3739): url = 'http://'+str(i)+'.mp4' url4.append(...

2018-12-04 21:01:03 197

原创重温强化学习之强化学习模拟平台

1、OpenAI Gym官网：http://gym.openai.com/OpenAI Gym是一个用户开发和比较强化学习算法的工具包，与其它的数值计算库兼容，如tensorflowOpenai gym 包含两个部分： 1）gym开源：包含一个测试集，每个问题成为一个环境(environment)，可以用于自己的强化学习算法开发，环境有共享的接口，允许用户设计...

2018-12-04 20:54:42 4934