自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(20)
  • 收藏
  • 关注

原创 强化学习实践(四):Temporal Difference(Sarsa \ Expected Sarsa \ Q-Learning On-Policy \ Q-Learning Off-Policy)

强化学习实践(四):Temporal Difference(Sarsa \ Expected Sarsa \ Q-Learning On-Policy \ Q-Learning Off-Policy)

2024-09-02 22:00:23 236

原创 强化学习实践(三):Monte Carlo Basic(MC Basic \ MC Exploring Starts \ MC Epsilon-Greedy)

强化学习实践(三):Monte Carlo Basic(MC Basic \ MC Exploring Starts \ MC Epsilon-Greedy)

2024-09-02 21:59:29 299

原创 强化学习实践(二):Dynamic Programming(Value \ Policy Iteration)

强化学习实践(二):Dynamic Programming(Value \ Policy Iteration)

2024-09-02 21:57:56 332

原创 强化学习实践(一):Model Based 环境准备

[TOC](强化学习实践(一):Model Based 环境准备)

2024-09-02 21:51:30 294

原创 强化学习第十章:Actor-Critic 方法

从QAC到A2C再到离线A2C,最后的DPG为什么是离线的,注意解决的关键问题以及引入的手段。

2024-08-28 00:05:17 913

原创 强化学习第九章:策略梯度方法

注意最终的优化函数以及梯度的求解。

2024-08-26 21:51:39 938

原创 强化学习第八章:值函数近似

对于随机变量S来说,要求期望就得知道分布,但不知道S的分布假设为均匀分布假设为平稳发布访问到次数更多的权重更大,那其实得按照某个策略访问足够多次,当这个马尔科夫链的状态转移矩阵达到平稳状态的时候才能用,但并不是每个马尔科夫链都能达到平稳分布,所有后面举的例子是用频率代替概率?三个误差函数的理解,DQN的技巧。

2024-08-05 18:34:43 752

原创 强化学习第七章:时序差分方法

值迭代和策略迭代算法可以边交互边学习,学习速度快,但是需要环境模型。蒙特卡洛方法从经验(交互结果)中采样学习,学习速度慢(需等Episode完成),不需要环境模型。时序差分方法不需要环境模型,能边交互边学习。MakaBaka想了想RM算法的迭代求解过程,点点了点头。

2024-07-01 17:10:29 625

原创 强化学习第六章:随机近似与随机梯度下降

SA算法是一类寻根(方程求解)或优化问题的 **随机迭代** 算法。随机采样,迭代近似。还有,SA相较于其他方法(比如梯度下降)的强大之处在于 **不需要知道** 目标函数或者其导数或梯度的 **表达式** 。

2024-05-31 10:18:16 1089

原创 强化学习第五章:蒙特卡洛方法

蒙特卡洛方法是一种统计模拟方法,要统计得有数据,模拟指的是统计的结果(不同问题统计的结果可能不同)尽可能接近真实值。- 蒙特卡洛估计(Monte Carlo Estimation, MCE)将投硬币的结果看作一个随机变量X,那么X的的**概率分布(**正面和反面朝上各自的概率)我们是知道的

2024-05-27 18:18:59 968

原创 强化学习第四章:值迭代与策略迭代

根据Contraction Papping Theorem,迭代一定次数之后求解出最优策略和最优状态价值。在值迭代和策略迭代算法对比的具体分析的第四步可以看到,值迭代只算一次,策略迭代理论是无数次。那么折中一点的方法就是截断策略迭代算法。

2024-05-22 17:52:23 715

原创 强化学习第三章:贝尔曼最优方程

内容上面原视频很精辟,注意引入的两个数学工具,一个求解最优化,一个contraction mapping theorem。贝尔曼最优公式理解:求解V*的过程,从k=0开始,通过Vk的值(初始值)以及每次都选择动作价值最大的动作(实际变现为动作价值最大的动作占有所有权重,策略),计算状态价值Vk+1,然后迭代,一定次数(exponentially fast)之后即为V*,那其实反映了只要每次选择动作价值最大的,最终策略就是最优的,也是老师视频开头讲的。这个方法也叫做值迭代算法。

2024-05-21 16:34:46 319

原创 强化学习第二章:贝尔曼方程

贝尔曼方程最早应用于工程控制理论,又称为动态规划方程,具体可以多查资料多角度理解。在强化学习中,贝尔曼方程描述的是不同状态的状态价值的关系,这些关系有很多,所以实际表现为贝尔曼方程组。状态价值 State Value某个状态出发,采用某个策略,得到的奖励回报的期望称为状态价值,用于评价一个策略的好坏。添加链接描述。

2024-05-13 16:38:13 821

原创 强化学习第一章:基础知识

强化学习是一种机器学习的一个分支,目标是在智能体与环境交互的过程中学习最优策略。

2024-05-08 10:53:12 387

原创 Python爬虫入门库之selenium+chromedriver的组合拳来爬取斗鱼主播信息

经过之前的介绍,学会了requests,BeautifulSoup库的简单使用,现在将介绍selenium+chromedriver的方式来实现爬虫1.首先准备库pycharm的话在File->Settings->然后对了,在国内,可以设置镜像,不然会很不方便,有时候安装不上,有时候搜索不出来镜像:https://mirrors.aliyun.com/pypi/simp...

2020-05-04 19:16:17 452

原创 Python爬虫入门库之BeautifulSoup库的常见使用

当我们用requests库或是selenium库获取到我们的文本信息之后,使用BeautifulSoup库来进行信息筛选比正则表达式更为严谨。接下来我直接介绍文本信息的处理,需要了解一丢丢CSS筛选器的知识。首先先来个实例,按照这个实例来讲解from bs4 import BeautifulSoupimport requestsimport string# 储存文本的文件开辟fil...

2020-05-02 11:46:02 317

原创 Python爬虫入门库之requests库的常用操作

requests作为爬虫入门库,我在学习过程中感觉操作比较简单本文将从下面几个方面来介绍其常见功能1.如何使用两种请求get和post(其他请求不做说明)2.如何伪装自身3.如何对返回信息进行处理首先,使用前需要导入库import requestsget和post请求的使用URL = 'https://www.baidu.com/'rGet = requests.get...

2020-05-01 11:15:49 308

原创 华为云弹性服务器+宝塔控制面板搭建IP访问站点与域名访问站点,超详细教程

前面华为云做活动,9元买了个一年的弹性服务器,用于自建个人网站,练习前端和实验室项目用。下面我将介绍买了服务器之后,你想以网站的形式访问自己的服务器的两种方式(并非SSH)。一、两种方法的前戏设置 1.首先服务器买好了之后,通过 **费用——> 我的订单——>订单详情** 查看你的服务器的区域,我的是华北-北京四 ![在这里插入图片描述](https://img-blog...

2019-12-23 13:40:14 3709

原创 Python的turtle库使用之科赫雪花绘制

学习python的海龟库时,了解到了科赫雪花,然后就进行了扩展绘制环境:PyCharm库:turtle random思考绘制方法:1、首先是为了方便后面的颜色控制,将一片雪花分成了六份那么容易看出这是个三阶的科赫曲线,实现方式是:def koch(size, n): if n == 0: t.pencolor(random.randint(0, ...

2019-10-01 17:22:03 4279

原创 关于电脑插上耳机后扬声器与耳机同时播放声音。

首先,我的电脑是机械革命X8ti的,一次重装系统后,所有驱动用驱动精灵安装后,插上耳机(试验过三款耳机),扬声器与耳机同时播放声音,并且排除虚连的情况。第一次尝试:重新安装了低一级版本的声卡驱动,实验多次,无法解决。第二次尝试:去机械革命官网下载官方驱动,然而要安装完成时提示安装失败,估计是重装系统的原因。第三次尝试:百度,百度上的方法基本是禁用设备和更新驱动,然而我的耳机插入后在设备管理器...

2018-12-04 22:22:31 6220

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除