自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(29)
  • 资源 (3)
  • 收藏
  • 关注

原创 RAIN_RFID

本文档描述了应用程序与RAIN RFID阅读器之间的接口,该接口旨在容纳所有RAIN RFID读取设备。如图所示为整体体系,该图描述了一个网络体系中RCI兼容的阅读器。一个阅读器可以像一个设备一样实现所有的RCI功能。本地应用程序可以添加RCI功能(例如数据解释)。这样的本地应用程序通常会在其接口中嵌入RCI来添加自己的功能。一个RCI适配器,可以将其他阅读器接口转换为RCI兼容。RCI适配器可以用来将多个RCI阅读器组合成一个受控的多天线阅读器。

2023-12-20 14:09:24 958

原创 【强化学习的数学原理】第十课:Actor-Critic

actor 与 criticθt1​θt​α∇θ​lnπat​∣st​θt​qt​st​at​qt​st​at​。

2023-10-30 17:01:08 164

原创 【强化学习的数学原理】第九课:梯度策略

是参数向量,原本是通过查表得形式得到策略,现在需要传播计算一次才能得到是多少。所对应的真实的action value,我们没法知道,所以我们进行近似。环境的信息是没法全部知道的,我们用随机的梯度替代。:是state value的加权平均。对一个做优化另一个也达到了极值。开始的一步立即奖励均值。能够用来平衡探索和利用。

2023-10-30 11:00:53 103

原创 【强化学习的数学原理】第八课:值函数近似

【例子】我们目前使用的都是state value表格形式优点:直观易分析缺点:没法处理大的和连续的state空间或action空间假设我有一些状态s1,…,s∣S∣s_1, \ldots, s_{|\mathcal{S}|}s1​,…,s∣S∣​,他们的state value是vπ(s1),…,vπ(s∣S∣)v_\pi\left(s_1\right), \ldots, v_\pi\left(s_{|\mathcal{S}|}\right)vπ​(s1​),…,vπ​(s∣S∣​),其中π\p

2023-10-29 15:18:19 162

原创 【强化学习的数学原理】第七课:时序差分方法

文章目录【例子】✨例子1:✨例子2:✨例子3:【state value的TD算法】✨TD learning 与 MC learning 比较:【action value的TD算法(Sarsa)】✨Sarsa 伪代码:【action value的TD算法(Expected Sarsa)】✨与Sarsa比较:【action value的TD算法(n-step Sarsa)】【optimal action value的TD算法(Q-learning)】✨on-policy learning &&

2023-10-28 16:55:47 133

原创 【强化学习的数学原理】第六课:随即近似与随机梯度下降

Mean estimation:使用一组数xkxk​来求平均EXEXwk1wk−1kwk−xkwk1​wk​−k1​wk​−xk​RM 迭代:用含有噪音的测量进行估计gwkηk1g​wk​ηk​1​gw0g(w)=0gw0wk1wk−akgwkηkwk1​wk​−ak​g​wk​ηk​SGD迭代:利用梯度采样∇wf。

2023-10-27 18:24:44 90

原创 【强化学习的数学原理】第五课:蒙特卡洛方法

exploration:探索,虽然现在知道这个action会获得更多的reward但说不定现在信息不完备,说不定应该去探索其他的action,说不定其他的action value也是很好的。exploitation:充分利用的意思,我在一个状态有许多的action,发现这个action很大,那么我在下一时刻应该采取这个action,未来相信会获得更多的reward。由于依赖于后面的reward,所以需要确保每一个都能访问到防止少访问了一个可能这个是最优解所以导致前面的都不是最优的。

2023-10-27 11:11:40 190

原创 【强化学习的数学原理】第四课:值迭代与策略迭代

理解:首先对每个状态计算q-value,之后选择最大的action value表明我知道了如何行动。第一步(policy evaluation):求解贝尔曼公式得到state value看策略如何。这个公式才是贝尔曼公式是state value,但这里只是一个值用来进行迭代趋近的。第二步(policy improvement):通过优化改变其策略为。第二步(value update):利用当前的。,需要进行内部迭代计算(贝尔曼公式迭代算法)第一步(policy update):当。初始化:随机给个策略。

2023-10-26 16:06:34 212

原创 【强化学习的数学原理】第三课:贝尔曼最优公式

state value能够用来衡量一个策略是好还是不好,如果满足下面式子,则表明π1\pi_1π1​比π2\pi_2π2​好vπ1s≥vπ2sfor alls∈Svπ1​​s≥vπ2​​sfor alls∈S一个策略π∗\pi^*π∗是最优的:对于所有sss和所有其他策略π\piπ的情况下vπ∗s≥vπsvπ∗​s≥vπ​s首先对某个状态s,有个估计vksv_k(s)v。

2023-10-25 20:01:56 145

原创 【强化学习的数学原理】第二课:贝尔曼公式

【例子 -> return重要性】问题:能否用数学工具描述从s1s_1s1​出发,哪个策略是最好的?回答:return可以评估一个策略策略1:return⁡1=0+γ1+γ21+…=γ(1+γ+γ2+…)=γ1−γ\begin{aligned}\operatorname{return}_1 & =0+\gamma 1+\gamma^2 1+\ldots \\& =\gamma\left(1+\gamma+\gamma^2+\ldots\right) \\&am

2023-10-25 11:31:22 219 1

原创 【强化学习的数学原理】第一课:基本概念

针对trajectory而言,沿着这个trajectory所有的reward的总和。:是一个实数,在做一个action后会得到的(可以认为是人与机器交互的接口)Tabular representation:可以用表格进行状态转移的表示。:假设按照以下trajectory进行,则无穷长的轨迹来说它会发散掉。:告诉agent我在哪个state应该采取怎样的action。State space:状态空间,为State的集合。:对于每个 State 其采取的行动。我在状态s采取策略a的概率是多少。

2023-10-24 16:49:07 93

原创 ThreadControl & SynchronousMutexOS

Os8,增加了线程机制与锁机制。

2022-12-17 14:37:24 166 1

原创 InterProcessCommunication OS

os7,在原来的基础上增加了进程之间的交互和文件的封装等功能。

2022-12-05 22:22:52 159

原创 File OS

os6,在原基础上新增加了文件系统 :)

2022-11-28 16:52:00 243

原创 Process OS

os5,增加了进程管理机制,使得应用的调度更加有序

2022-11-19 16:15:17 364

原创 Ankylosauridae OS

lab2-os4,增加了地址空间的隔离,该文章为内部代码的详细解读,仅限个人理解。仔细阅读后才明白了简单的概念内部detail的精美复杂

2022-11-06 17:40:59 934

原创 openwrt rust环境安装

openwrt rust环境安装个人笔记

2022-09-24 21:30:15 920

原创 Multiprog & Time-Sharing OS

分时多任务操作系统,也是目前的OS3

2022-09-15 19:55:36 445

原创 Dunkleosteus OS

在裸系统的环境上增加了特权级隔离,Os2

2022-09-05 17:37:03 525

原创 Trilobita OS

OS-1个人学习笔记哈

2022-08-25 14:24:14 517

原创 Rust_lings

Rustlings 仅供参考

2022-08-21 18:52:29 753

原创 MT7620a-Openwrt-Frp

Frp

2022-08-18 18:39:49 2224

原创 2022 电赛陕西省赛

2022电赛省赛声源定位

2022-08-01 13:14:51 6600 9

原创 2022电赛五校联赛

题目:探测跟踪系统(C 题)在区域内随便摆放易拉罐,能够探测并显示探测装置与目标物体之间的距离 l。在区域内随便摆放多个易拉罐,探测跟踪系统能够探测并显示指定距离范围内的目标物体数量。在区域内随便摆放多个易拉罐,探测装置能够探测并指示 2 个相距最近的目标物体之间的最近距离。在探测区域内随机画一条长度为 50cm 的直线,将目标物体沿着直线轨迹挪动,探测跟踪系统能够记录并显示目标物体挪动的极坐标轨迹。在探测区域内随机画一条曲线,端点相距 50cm,将目标物体沿着曲线轨迹挪动,探测跟踪系统能够

2022-05-29 23:42:23 2026

原创 2022电赛校赛

题目:程控风力摆(C题)【基础架构】:一长约 60cm~70cm 的细管(刚性管)上端用合页固定在支架上,下方悬挂一组直流风机,构成一风力摆。风力摆上安装一向下的激光笔,静止时,激光笔的下端距地面不超过 20cm。设计一测控系统,控制驱动各风机使风力摆按照一定规律运动,激光笔在地面画出要求的轨迹。【基础要求】:现场输入 4 个坐标点,坐标点范围为[-30,30]内,令风力摆从静止开始,10s内控制激光笔指向指定位置并要求稳定时间不少于3s,误差不超过±2cm。在上位机绘制摆角α和坐标 x 随时

2022-05-16 22:14:30 4543 1

原创 浮点表示(计算机系统)

定点表示法:数字权的定义与十进制小数点符号(’‘)

2020-10-25 17:36:33 274

原创 2020 电赛陕西省赛

题目:无线运动传感器节点设计(A 题)基于 ADS1292 模拟前端芯片设计心电检测电路,完成使用者的心电信号实时测量:①实时采集和记录使用者的心电信号,实现动态心电图的测试与显示:②分析计算使用者的心率,心率测量相对误差不大于 5%。基于 LMT70 温度传感器测量使用者体表温度:①实时采集和记录使用者的体表温度,温度采样率不低于 10 次/分钟;②体表温度测量误差绝对值不大于 2℃。基于加速度计等传感器检测使用者运动信息,实现运动步数和运动距离的统计分析:①运动距离记录相对

2020-10-15 19:43:18 2655 12

原创 2020 陕西七校联赛

题目:设计并制作一个震源方位探测装置,探测区域是边长为500mm的正方形,沿水平和垂直方向的边沿标注了X、Y坐标系,O点为坐标原点。传感器布置区在右下角,是边长100mm的正方形区域。在震源产生区内有10g、5g、2g砝码坠落时,探测装置能够显示砝码坠落点在图中坐标系内的坐标位置(X,Y)。方案初探:通过摄像头进行砝码识别进行x,y的值的推导失败原因:摄像头无法将整个板子照进去会有盲区,增加两个摄像头会有重合区且由于物体太小,所以很难区分砝码大小。通过多个超声波测距模块儿得到距离值通过算法计

2020-09-20 23:07:24 652

原创 2020----7、8月瑞萨杯

**2020瑞萨杯电子设计大赛——口袋宠物助手**一:需求分析:①视频传输②摄像头位置控制③小车驱动④红外线发射⑤喂食系统二:嵌入式部分整体流程:

2020-09-20 22:02:01 254

2022电赛省赛声源定位工程代码

2022电赛省赛声源定位工程代码

2022-08-01

2022校赛工程,参考博客

参考博客

2022-05-30

2022五校联赛代码,参考博客

参考博客

2022-05-30

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除