九头鸟艾云-CSDN博客

原创【介绍一本深度学习方面的书 July 2, 2024】

Understanding Deep Learning

2024-07-22 19:18:03 68

原创 Python 语言的几个关键特色

在C/C++中，使用变量i，要定义：int i;然后使用：i=5;在python 中，直接使用：i = 5。i的类型，由于等号右侧的值进行推断，这里是整形（int）。

2024-01-25 18:15:25 1085 1

原创【关于机器学习里的Automatic differentiation】

由于描述神经网络的计算图中，用到的计算比较简单，如加、减、乘、除，用到的函数也经常是sin、cos、指数函数、对数函数等，它们的微分函数形式也比较好求到，所以当给定神经网络结构后，可以容易地得到计算偏微分的计算图。从图中可以看出，这种计算偏导数的方法，不是一种基于符号的对数学公式的微分运算，也没有像数值微分算法那样，采用差分近似。所以它的计算效率很高，且没有的数值微分因采用差分导致的近似误差。按上图从底向上进行计算，直到将顶层根节点的值计算出来，要计算对。的偏导数时，对于每一个确定的。

2024-01-13 10:41:23 797 1

原创【关于Sutton 《Reinforcement Learning:An Introduction》Example 6.5: Windy GridWorld 的MATLAB语言实现】

这是其中一组最优路径：(4,1)–2 --> (4,2)–2 --> (4,3)–2 --> (3,4)–2 --> (2,5)–2 --> (1,6)–2 --> (1,7)–2 --> (1,8)–2 --> (1,9)–2 --> (1,10)–（a,b) – a代表网格的行号，从上到下分别为1-7，b代表网格的列号，从左向右，分别为1-10. – x–> 箭头上的数字为1,2,3,4，分别代表上、右、下、左四个运行方向。该程序是对前面书中P130截图中给出的算法的实现。

2023-12-19 15:22:08 372 1

原创【关于Sutton 《Reinforcement Learning:An Introduction》Example 6.2 Random Walk的MATLAB语言实现】

MC算法（由书中公式（6.1）描述）的4条曲线时，每生成一幕数据后，要按公式书中公式（6.1）进行价值函数更新，也要进行了100次平均（程序中的kk循环）。生成图1的代码主要在程序的前半部分，没有难度。生成图2中的TD算法的3条曲线时，主要难点在于按书中所说，所显示的是均方根RMS误差，此外，由于上面的程序每次运行时，rand()函数生成的值不可能精确重复，所以得到的曲线。从图2中可以看出，对于例6.2这种情形，TD算法的收敛性比MC方法要好得多。图2 对应书中例6.2中的右图。

2023-12-17 19:05:08 357 1

原创【强化学习的核心方程：贝尔曼方程解析】

当然要熟练地将这种表达式转换为求和的形式。另外，就是用到了二元联合条件密度函数在形式上的一些变化。相关知识是所有概率论书籍上的基本知识。由于贝尔曼方程在强化学习中的核心地位，建议读者深刻理解其推导过程，特别是对与智能体相关的策略函数。推导过程中，马尔可夫性在关键的一步上起作用。有了对价值函数的贝尔曼方程的推导理解，动作价值函数。在此基础上，贝尔曼最优方程的的推导也是很直接的了。外，是一样的，可以写成如下表达式。的贝尔曼方程的推导是类似的。与未来的折扣收益之和。的作用要进行准确把握。

2023-12-14 23:06:04 1449 1

原创【关于Sutton 《Reinforcement Learning:An Introduction》Example 5.1: Blackjact 的MATLAB语言实现】

图 1 有可用A的情形（500000幕后）图 2 无可用A的情形（500000幕后）图3 有可用A的情形（100000幕后）图4 无可用A的情形（100000幕后）

2023-12-11 23:21:07 373 1

原创【关于Sutton 《Reinforcement Learning:An Introduction》Example 4.3: Gambler‘s Problem的MATLAB语言实现】

这个程序花了不少时间，特别是最决策，用到一点小小的技巧。

2023-12-10 23:14:38 407 1

原创精确解：关于Sutton《Reinforcement Learning:An Introduction》中Example 3.5 Gridworld

对比之前采用迭代算法的结果：（原文链接：https://blog.csdn.net/weixin_43047969/article/details/134865633）其中：v是一个状态矢量（v1,v2,…, v25)，将5x5的网格进行编码得到，如图1所示。GridA是一个25x25的概率矩阵，Beta是一个1x25的收益矢量。在保留4位小数的情况下，二者是一样的！图1 状态编码示意图。

2023-12-09 12:22:32 363

原创【关于Sutton 《Reinforcement Learning:An Introduction》Example 3.8: Solving the Gridworld的MATLAB语言实现】

例3.8 求解网格问题的MATLAB计算程序：（同样未做优化：-））大家可对比一下上一篇文章，看在单一策略与最优策略下，实现方式的不同，有助于理解贝尔曼方程和贝尔曼最优方程的内涵，以及p(a|s)与p(s’,r|s,a)在二种情形下的取值。

2023-12-08 21:22:09 347

原创关于 Sutton 《Reinforcement Learning:An Introduction》中Example 3.5 Gridworld 的MATLAB程序实现

--------------- 运行结果如下 ----------------------------计算Figure3.2 中右图的MATLAB程序如下：（没有优化，但结果正确：-））

2023-12-07 21:40:12 970 3

原创无线通信系统仿真--C++实用模型

无线通信系统仿真–C++实用模型》一书附属代码调试中的问题。

2023-09-24 12:41:17 137 1

原创 LDPC 码的编码：当求取生成矩阵G时，对校验矩阵H进行列变换的后续影响

依据上述1中的描述，H矩阵的行置换不改变码空间，进行校验时可直接使用最初始的H，而列置换后一般不能直接使用最初始的H，而要使用H*P进行校验，也就是进行译码。由于只对H进行了列置换，并不影响检验矩阵的稀疏性。要点：1. H矩阵是一个稀疏矩阵，行矢量码C满足C*H'=0（H‘为H的转置），也就是C位于H的零空间，对H的行进行置换得U, 而行置换后仍有C*U=0，即行置换后U的零空间与H的零空间一样。2. H矩阵进行列置换，相当于用置换矩阵P右乘H，即V=H*P，这时，要使C*V’=C*（H*P）‘

2023-07-23 22:07:03 1159 2

weixin_43047969的博客