自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

记录学习痕迹的公众号:Piper蛋窝

985研究生在读,现役微软学生大使MLSA,公众号:Piper蛋窝,记录学习痕迹,分享技术心得

  • 博客(17)
  • 资源 (1)
  • 收藏
  • 关注

原创 【强化学习】表格型求解方法总结:基于表格型方法(Tabular Methods)的规划(Planning)和学习(Learning)

本次笔记对《强化学习(第二版)》第八章进行概括性描述。同时,也对本书的第一部分(共三部分)表格型求解方法进行了系统性阐述。

2020-01-31 23:39:02 1772

原创 n步自举法:时序差分方法与蒙特卡洛方法的结合

前言: 之前讨论了(1步)时序差分方法(CSDN链接)与蒙特卡洛方法(CSDN链接)。刚刚学习完 Sutton 的《强化学习(第二版)》的第七章:n步自举法。它是时序差分方法与蒙特卡洛方法的折中,一般地,效果要好于二者。本次笔记不记录公式、算法框架,介绍思想。具体内容请见中文电子书:第7章 n 步引导(Bootstrapping)方法文章目录n步自举法与时序差分方法、蒙特卡洛方法同轨策...

2020-01-28 23:47:58 1432

原创 神奇的多项式求导矩阵与积分矩阵

线性代数是一门有趣又有用的学科。基于机器学习、深度学习等技术的人工智能的核心数学知识就包含数理统计、微积分与线性代数。

2020-01-27 14:35:53 3833

原创 《强化学习》中的时序差分控制:Sarsa、Q-learning、期望Sarsa、双Q学习 etc.

学习了 Sutton 的《强化学习(第二版)》第6章时序差分学习的控制部分,将笔记提炼如下:Sarsa、Q-learning、期望Sarsa、双 Q 学习。

2020-01-22 23:47:34 1881

原创 《强化学习》中的 时序差分学习 Temporal-Difference Learning (基于与动态规划 DP 、蒙特卡洛方法 MC 的对比)

学习了 Sutton 的《强化学习(第二版)》中时序差分学习的“预测”部分内容。前两章中,书介绍了 动态规划 与 蒙特卡洛方法 ,我们从二者与 时序差分学习 的对比开始讲起。

2020-01-19 00:47:37 1479

原创 心得&复述知识体系:《强化学习》中的蒙特卡洛方法 Monte Carlo Methods in Reinforcement Learning

刚刚读完 Sutton 的《强化学习(第二版)》第5章:蒙特卡洛方法。为了巩固本章收获,笔者将在本文中用尽量简单直白的语言复述本章的思想,各个知识点之间的关系。同时,这方便笔者日后进行复习,也与他人分享了心得。

2020-01-18 00:29:10 1544

原创 【python报错】 ModuleNotFoundError: No module named 'X' 如何调用自己写的 moudle / python / .py 文件(同一项目中)

自己用 python 写项目,文件系统结构如下:RL-for-Order-WorkflowRL-for-Order-Workflow\pySimRL-for-Order-Workflow\pySim\testRL-for-Order-Workflow\pySim\test\test.pyRL-for-Order-Workflow\pySim\entityRL-for-Order-Wor...

2020-01-17 16:07:07 1074 1

原创 强化学习 / 动态规划:策略改进(Policy Improvement)使策略更优的数学证明

反证法证明了,基于贪心算法的策略改进是“有效的”。

2020-01-16 08:24:50 2388

原创 【汇编语言与计算机系统结构笔记09】程序栈,(x86-32)过程调用,栈帧,寄存器使用惯例

本次笔记内容:10.栈与过程调用的机器表示-111.栈与过程调用的机器表示-212.实验

2020-01-14 19:40:03 531

原创 从程序设计、tqdm到lambda:python的“奇技淫巧”,让实现效率翻倍【科学计算类】

其实,python早已经把这种常用、重复性强的代码封装好了。了解这些“奇技淫巧”,很有助于我们提升开发效率,且增强代码可读性。

2020-01-12 00:15:04 599

原创 【汇编语言与计算机系统结构笔记08】如何实现循环(Loops),gcc历史上经历了多种转换模式(微体系结构角度解释),Switch语句,跳转表

【汇编语言与计算机系统结构笔记07】中讨论了控制流的一些内容,本次首先通过例题讨论条件指令的局限性,接着讨论如何实现循环(Loops)与Switch跳转表。

2020-01-11 19:16:41 581

原创 强化学习/动态规划:贝尔曼方程的解读 Bellman Equation & 贝尔曼方程组 / 贝尔曼最优方程

读书《Reinforcement Learning: An Introduction Second Edition》,读到第三章有限马尔科夫决策过程MDP中,提到了贝尔曼方程的理解。一开始我是有点懵逼的,现在看懂了其意思,在这里解释一下。

2020-01-11 12:13:49 6342 5

原创 自学编程,先学python、java还是C++?——大四学生对于初学者的一点建议

自学编程,先学什么语言呢?实际上,编程能做的事太多了,首先明确自己想要用代码做什么,再明确自己的学习路径、选择起点是笔者提出的意见。

2020-01-06 12:26:42 7109

原创 【汇编语言与计算机系统结构笔记07】条件码,比较、测试、条件跳转与条件转移指令,结合微体系结构与流水的说明

本文对条件码与相关指令进行讲解。并展开讨论了计算机微体系结构与流速相关内容。

2020-01-05 11:00:13 1297 1

原创 【VS Code配置matlab】手把手教学,matlab也能自动补全+瞬间启动+代码整理!

前言: matlab很好地集成了大量数学处理函数,甚至封装了包括信号处理、图像处理、神经网络、音乐等在内的方法。但matlab启动慢、没有代码补全、开发环境不友善等缺点常受人诟病,算法编写者往往需要进行大量重复动作。而VS Code是微软推出的一款轻量、开源、生态极好的编辑器。本文详细介绍使用VS Code配置matlab环境的方法,使算法编写者可以利用VSC编写.m文件,充分利用VSC的开发友...

2020-01-04 11:35:58 33151 49

原创 【汇编语言与计算机系统结构笔记06】地址计算指令,lea / leal,x86-32与x86-64下的swap对比,汇编的格式对比(Intel/Microsoft Differs from GAS)

以lead为主,对访存与地址表达式计算进行了进一步探讨。最后,对比了Intel/Microsoft与AT&T汇编格式。此外,文末附有练习题与答疑。

2020-01-03 15:47:22 988

原创 【汇编语言与计算机系统结构笔记05】汇编的系统结构,从C代码生产汇编代码,一个具体的、经典的数据传送指令(mov)实例与分析

本次笔记开始,正式进入汇编语言程序设计的“语言”部分。

2020-01-02 20:27:28 600 1

BA_network-SEIR-Sim.rar

https://mp.weixin.qq.com/s/TLfMSeDlqpIvlL0fNT40OA 很实用的 python 病毒仿真模拟,适于有python基础课、系统工程、病毒仿真相关大作业的同学使用。

2020-08-01

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除