自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(13)
  • 收藏
  • 关注

原创 【介绍一本深度学习方面的书 July 2, 2024】

Understanding Deep Learning

2024-07-22 19:18:03 18

原创 Python 语言的几个关键特色

在C/C++中,使用变量i,要定义:int i;然后使用:i=5;在python 中,直接使用:i = 5。i的类型,由于等号右侧的值进行推断,这里是整形(int)。

2024-01-25 18:15:25 1084 1

原创 【关于机器学习里的Automatic differentiation】

由于描述神经网络的计算图中,用到的计算比较简单,如加、减、乘、除,用到的函数也经常是sin、cos、指数函数、对数函数等,它们的微分函数形式也比较好求到,所以当给定神经网络结构后,可以容易地得到计算偏微分的计算图。从图中可以看出,这种计算偏导数的方法,不是一种基于符号的对数学公式的微分运算,也没有像数值微分算法那样,采用差分近似。所以它的计算效率很高,且没有的数值微分因采用差分导致的近似误差。按上图从底向上进行计算,直到将顶层根节点的值计算出来,要计算对。的偏导数时,对于每一个确定的。

2024-01-13 10:41:23 794 1

原创 【关于Sutton 《Reinforcement Learning:An Introduction》Example 6.5: Windy GridWorld 的MATLAB语言实现】

这是其中一组最优路径:(4,1)–2 --> (4,2)–2 --> (4,3)–2 --> (3,4)–2 --> (2,5)–2 --> (1,6)–2 --> (1,7)–2 --> (1,8)–2 --> (1,9)–2 --> (1,10)–(a,b) – a代表网格的行号,从上到下分别为1-7,b代表网格的列号,从左向右,分别为1-10. – x–> 箭头上的数字为1,2,3,4,分别代表上、右、下、左四个运行方向。该程序是对前面书中P130截图中给出的算法的实现。

2023-12-19 15:22:08 371 1

原创 【关于Sutton 《Reinforcement Learning:An Introduction》Example 6.2 Random Walk的MATLAB语言实现】

MC算法(由书中公式(6.1)描述)的4条曲线时,每生成一幕数据后,要按公式书中公式(6.1)进行价值函数更新,也要进行了100次平均(程序中的kk循环)。生成图1的代码主要在程序的前半部分,没有难度。生成图2中的TD算法的3条曲线时,主要难点在于按书中所说,所显示的是均方根RMS误差,此外,由于上面的程序每次运行时,rand()函数生成的值不可能精确重复,所以得到的曲线。从图2中可以看出,对于例6.2这种情形,TD算法的收敛性比MC方法要好得多。图2 对应书中例6.2中的右图。

2023-12-17 19:05:08 357 1

原创 【强化学习的核心方程:贝尔曼方程解析】

当然要熟练地将这种表达式转换为求和的形式。另外,就是用到了二元联合条件密度函数在形式上的一些变化。相关知识是所有概率论书籍上的基本知识。由于贝尔曼方程在强化学习中的核心地位,建议读者深刻理解其推导过程,特别是对与智能体相关的策略函数。推导过程中,马尔可夫性在关键的一步上起作用。有了对价值函数的贝尔曼方程的推导理解,动作价值函数。在此基础上,贝尔曼最优方程的的推导也是很直接的了。外,是一样的,可以写成如下表达式。的贝尔曼方程的推导是类似的。与未来的折扣收益之和。的作用要进行准确把握。

2023-12-14 23:06:04 1448 1

原创 【关于Sutton 《Reinforcement Learning:An Introduction》Example 5.1: Blackjact 的MATLAB语言实现】

图 1 有可用A的情形(500000幕后)图 2 无可用A的情形(500000幕后)图3 有可用A的情形(100000幕后)图4 无可用A的情形(100000幕后)

2023-12-11 23:21:07 371 1

原创 【关于Sutton 《Reinforcement Learning:An Introduction》Example 4.3: Gambler‘s Problem的MATLAB语言实现】

这个程序花了不少时间,特别是最决策,用到一点小小的技巧。

2023-12-10 23:14:38 407 1

原创 精确解:关于Sutton《Reinforcement Learning:An Introduction》中Example 3.5 Gridworld

对比之前采用迭代算法的结果:(原文链接:https://blog.csdn.net/weixin_43047969/article/details/134865633)其中:v是一个状态矢量(v1,v2,…, v25),将5x5的网格进行编码得到,如图1所示。GridA是一个25x25的概率矩阵,Beta是一个1x25的收益矢量。在保留4位小数的情况下,二者是一样的!图1 状态编码示意图。

2023-12-09 12:22:32 363

原创 【关于Sutton 《Reinforcement Learning:An Introduction》Example 3.8: Solving the Gridworld的MATLAB语言实现】

例3.8 求解网格问题的MATLAB计算程序:(同样未做优化:-))大家可对比一下上一篇文章,看在单一策略与最优策略下,实现方式的不同,有助于理解贝尔曼方程和贝尔曼最优方程的内涵,以及p(a|s)与p(s’,r|s,a)在二种情形下的取值。

2023-12-08 21:22:09 347

原创 关于 Sutton 《Reinforcement Learning:An Introduction》中Example 3.5 Gridworld 的MATLAB程序实现

--------------- 运行结果如下 ----------------------------计算Figure3.2 中右图的MATLAB程序 如下:(没有优化,但结果正确:-))

2023-12-07 21:40:12 970 3

原创 无线通信系统仿真--C++实用模型

无线通信系统仿真–C++实用模型》一书 附属代码调试中的问题。

2023-09-24 12:41:17 135 1

原创 LDPC 码的编码:当求取生成矩阵G时,对校验矩阵H进行列变换的后续影响

依据上述1中的描述,H矩阵的行置换不改变码空间,进行校验时可直接使用最初始的H,而列置换后一般不能直接使用最初始的H,而要使用H*P进行校验,也就是进行译码。由于只对H进行了列置换,并不影响检验矩阵的稀疏性。要点:1. H矩阵是一个稀疏矩阵,行矢量码C满足C*H'=0(H‘为H的转置),也就是C位于H的零空间,对H的行进行置换得U, 而行置换后仍有C*U=0,即行置换后U的零空间与H的零空间一样。2. H矩阵进行列置换,相当于用置换矩阵P右乘H,即V=H*P,这时,要使C*V’=C*(H*P)‘

2023-07-23 22:07:03 1140 2

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除