- 博客(150)
- 资源 (10)
- 收藏
- 关注
原创 【详解+推导!!】马尔可夫决策过程
马尔可夫决策过程, Markov Decision Process, MDP文章目录一、为什么需要马尔可夫决策过程?二、马尔可夫决策过程1. 马尔可夫性2. 随机过程3. 马尔可夫过程4. 马尔可夫决策过程三、策略与累计回报1. 策略2. 累计回报四、值函数1. 值函数2. “状态值函数”与“状态-行为值函数”五、什么是强化学习算法?一、为什么需要马尔可夫决策过程?[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-YTGUytIs-1616223214043)(2021-0
2021-03-20 14:54:51 28861 8
原创 Python从0到1
浏览目录①常用字符串操作:https://blog.csdn.net/qq_33302004/article/details/112858982②常用基本操作:https://blog.csdn.net/qq_33302004/article/details/112859236
2021-01-20 10:35:32 542
原创 算法笔试-编程练习-好题-07
如果不熟悉python的底层的话,上面的程序看起来就是O(n)的时间复杂度。但是由于python的字符串类型的变量底层上是不可变的,因此每一次的+=,都需要经历:1)计算两边的字符串的长度,2)然后开辟一块的新的空间,3)将原来的ans复制进入新空间,4)将 += 右侧的内容追加到新空间中ans 的尾部。' '.join函数,会在result的每个元素之间添加一个空格,上面的字符串构建时,会先计算最终字符串的长度,然后再开辟空间,因此只会经历1次的空间开辟过程,整体的时间复杂度符合O(n)
2024-09-21 14:16:22 420
原创 算法笔试-编程练习-好题-06
【题目类型:滑动窗口、贪心、双指针、等差数列求和】某公司日对新用户推出大礼包,从任意一天注册开始,连续登录x天,每天可以领取一定的金币,领取金币的数量与该公司新设计的虚假世界的日历相关,该日历一年有n个月,第i个月有di天,每一年都一样。在每个月第一天会得到首先这题是个较为明确的滑动窗口类题目,我们只需要遍历每种情况即可获得最多的金币数。获取金币的最小单位是天,但是如果以天为单位步长进行滑动窗口一定会超时的。我们仔细分析可以发现以月份为滑动窗口进行遍历,对每一种取值存在贪心的计算方式。既然是滑动窗
2024-09-19 17:16:58 371
原创 算法笔试-编程练习-好题-05
【题目类型:动规+双指针】有N个基站采用链式组网,按照从左到右编码为1到N编号。已知定义“业务”概念为三元组(基站起始编号,基站结束编号,利润),意味着需要占据基站起始编号到基站结束编号的所有基站,打通信号流,可以获得对应利润。【题目类型:动态规划+双指针】我们以业务的结束基站来描述业务的利润,那么基站i处如果没有业务,则其最大利润为:DP[i]=DP[i-1],若有任务则为DP[i]=max(DP[i-1], DP[k1-1]+r)
2024-09-14 16:51:48 460
原创 算法笔试-编程练习-好题-04
礼盒大小不同,我们玩堆盒子的游戏,怎么堆盒子使得堆出的高度最高,每个礼盒的大小由长、宽、高表示,堆盒子的时候要求下面的盒子长、宽、高都必须大于上面的盒子,不包含等于。高度为堆出的礼盒的所有高度的总和。
2024-09-14 15:18:35 467
原创 算法笔试-编程练习-好题-03
因为大数是通过阶乘求得的,那么必定很多数字会被乘很多次,所以直觉上我们需要先统计每个数字使用的次数,阶乘描述的是1-n的连城,也就是1-n之间所有数字的使用次数+1。再通过遍历质数的方式统计每个数字对该质数的指数,这里可以使用动态规划进行加速,我们假设数字i是指数p的倍数,那么 power[i] = power[i//p] +1(详见代码)。对于2我们有3种取法,取0个,1个和2个,对于3我们有2种取法,0个和1个,因此12共有3*2个因子,也就是指数+1的累乘,也就是(2+1)*(1+1)。
2024-09-03 16:20:34 477
原创 算法笔试-编程练习-M-01-24
质因数,小乖对 gcd (最大公约数) 很感兴趣, 他会询问你t次。 每次询问给出一个大于 1 的正整数 n, 你是否找到一个数字m(2 ≤m ≤ n),使得 gcd(n,m)为素数.;极差,小乖有一个长度为 n 的数组,每次操作可以选择两个下标i和j,分别减1和加1,小乖想知道最少需要多少次操作,可以使数组极差减小;第一步,小乖选择一个非空的区间 [l,r],将这个区间中的所有数字都乘上 k。第二步, 小坏选择一个非空的区间 [l,r], 将这个区间中的所有数字都乘上 k。
2024-09-03 13:19:39 992
原创 算法笔试-编程练习-好题-01
那么如何确定两个数字是否位于该等差数列上呢?同时对于interval取余,余数相等,则位于同一个等差数列上,这就是同余;一直觉得贪心是比较难的一类题目,遇到一些难题的时候容易出现明确知道用贪心但想不出来如何贪心的问题。比较好的练习方式就是见多识广。这道题的贪心思想就是,优先参加快结束了的会议,这点想明白了,这题就变成了一道模拟题。更优秀的做法可以结合优先队列,但是下面的代码也能全部AC。
2024-08-30 12:02:06 673
原创 算法笔试-编程练习-H-04-24
规则集(dst一定为寄存器,src为寄存器或十进制正整数,运算结果存在负数场景):1)MOV dst src含义:dst = src(2)ADD dst src0 src1含;无线通信移动性需要在基站上配置邻区(本端基站的小区LocalCell与周边邻基站的小区NeighborCelI映射)关系;
2024-08-29 16:25:43 914
原创 算法笔试-编程练习-H-03-24
操作系统的页式存储管理中,当主存满并且需要的存储页不在主存中,需要对主存中的页面进行置换,其中有一个非常重要的算法,即LRU置换算法;我们要对汇编程序进行语法解析,已知存在种字符串解析语法,其中的语法元素如下N:用于匹配单个数字(0-9)A:用于匹配单个字母(a-z,A-Z);当前某客户订购了2台设备和num块接口板。请计算是否存在一种安装方法,使用户选购的接口板,刚好能装到两台设备上,且每台设备配置的口板的转发能力之和,刚好和整机的转发能力相等。柜式路由器需要配备接口板才可以工作,接口板用于接入用户业务,
2024-08-28 16:41:24 955
原创 算法笔试-编程练习-H-02-24
一、数据重删是一种节约存储空间的技术,通常情况下,在数据存储池内是有很多重复的数据库。重删则是将这些重复的数据块找出并处理的技术;二、任务调度某Devops系统有一批并发任务需要匹配合适的执行机调度执行,任务和执行机都具有CPU型(用0表示)和IO型(用1表示)的区别,此外还有一种通用型执行机(用2表示),一批任务和执行机的类型分别用数组tasks、machines表示;三、亲和调度找出一组包含亲和任务数量最多的亲和调度任务组;大部分任务之间存在亲和关系,需要优先把具有亲和关系的任务调度到同一个核上面,不亲
2024-08-27 12:35:47 1034
原创 算法笔试-编程练习-J-02-23
在一个 3 * 3 的棋盘上,小红和小紫正在玩“夹吃棋”。 所谓“夹吃棋”,即如果存在一个白子,它的两侧 (横向或者纵向)相邻都是黑子,则这个棋子将被“夹吃”,对于黑棋亦然。 ;小红准备买药治病。已知共有 n 种症状和 m 种药,第 i 种药可以治疗一些症状,但可能会导致一些副作用,添加一些新的症状。小红依次服用了一些;有一个 n 行 m 列的棋盘,有一些格子是障碍物不能通过。小红控制一个皇后在从左上角出发,每次移动她可以控制皇后进行以下三种方式中的一种:1.向右移动若干个格子。
2024-08-26 14:48:17 504
原创 算法笔试-编程练习-01-B-23
小红组内有 n 个人,大家合作完成了一个初版方案,初始时大家的愤怒值都是 0。 但是领导对方案并不满意,共需要修改 m 次方案,每次修改会先让第 l 到 r 个人的愤怒值加 1,然后再修改方案;
2024-08-23 11:07:46 2312
原创 笔试算法—编程练习-01-H-24
你正在开发一个代码依赖分析工具。这个工具需要分析软件模块之间的依赖关系,用来优化代码的编译和构建过程;农田受到地震的破坏,农田中的一些网点断开了联系。假设原本的农田网构成一个矩形,其中未被破坏的网点标记为 1,被破坏的网点标记为 0;字符串重排游戏规则如下:给定一个由小写字母组成的字符串 s,通过重新排列 s 中的字母,看看最多能组成多少个不同的回文字符串
2024-08-22 17:46:24 822
原创 笔试算法-编程练习-01-J-24
笔试;一、下雪村子里有一些桩子,从左到右高度依次为1,1+2,1;二、积木牛牛有一种锯齿状的积木,这种积木比较长,但是每个单位长度的高度是相等的高度为 1 或者 2;三、过年;牛牛也是要回家过年的呢。牛牛所在的国家有 n 座城市,m 条有向道路,第 i 条道路由城市ui通往城市vi,通行费为 wi。作为一头豪气的牛,希望他回家的花费是一个特殊的数字(例如666元)。具体的说,牛牛希望从城市1移动到城市n,并恰好花费a元。
2024-08-22 11:34:41 1216
原创 笔试算法-编程练习-01-X-23
23年小米笔试;一、手机流畅运行的秘密;8 月份发布会一结束,米小兔就在公司领到了一台最新发布的 Xiaomi MIX Fold 3 手机,这是一款小米旗舰折叠屏手机,并搭载了全新升级架构的 MIU114 系统;二、小米手机通信校准;小米手机生产过程中会经过严苛的测试环节,其中包括手机通讯功能中的射频校准。射频校准会打点数据上报到云端
2024-08-16 15:39:11 774
原创 笔试算法-编程练习-02-Z-23
23年字节笔试-0820;一、三珠互斥;小红将 n 个珠子排成一排,然后将它们串起来;二、扑克牌同花顺;小红最近迷上了纸牌游戏。纸牌有四种花色:黑桃 (Spade, 'S')、红桃 (Heart, 'H')、方块 (Diamond, 'D') 和梅花 (Club, 'C');三、好数组;小红定义一个数组是好数组,当且仅当该数组中有且仅有一个元素和其他元素不同,剩余的所有元素相同。;四、极长连续段的权值;小红定义一个字符串的权值为:极长“连续段”的数量。所谓极长“连续段”,指尽可能长的一段字符全部相同的连续子
2024-08-16 14:32:22 1006
原创 笔试算法-编程练习-01-Z-21
字节21年校招-算法方向-第四批;一、子串长度;有一个仅包含’a’和’b’两种字符的字符串s;二、房间传送门;存在n+1个房间,每个房间依次为房间;三、球队比分;有三只球以,每只球队编号分别为球队1,球队2,球以3
2024-08-15 19:29:15 770
原创 【拒绝造车轮】韦伯分布-Python
本系列目的在于记录日常使用的非常用包。算法研究中常会遇到需要使用某些数学工具的情况,这些数学工具往往涉及公式推导,初次使用了解原理+算法实现需要花费大量时间,同时这些数学工具大部分都已经被实现过了,拒绝造车轮可以让我们把更多的精力花费在核心难题中。
2022-10-09 17:03:40 2133 2
原创 Golang 极速入门1小时版本
一小时左右极速完成Go语言入门,如果有其他编程语言基础,基本就可以进行正常编码了。内容覆盖:变量、判断、循环、函数、数组、指针、结构体、类型转换、接口类、并行
2022-06-18 01:12:36 328
转载 web前端+python后端打包发布
前端打包:前端web项目打包(二) - anyejin - 博客园python打包:python脚本打包成exe+配置文件_yxtchc的博客-CSDN博客_python 打包及配置文件
2022-01-19 17:16:33 680
原创 Cesium 设置空白处菜单和右键菜单
一、先看效果二、代码实现1. 先在html页面中实现两个右键菜单的样式。2. 设置ceisum中的鼠标右键监听事件//鼠标右键事件监听function EventListener_MouseRightClick (handler) { handler.setInputAction(function (evt) { //设置监听方法 var scene = viewer.scene; pick = sce.
2021-06-01 10:16:04 2079 4
原创 Cesium 设置实体(模型、图片)的朝向
一、需求来源在项目中,需要绘制汽车并且设置其朝向,原始方式是使用模型绘制,便可以很容易的通过设置orientation属性控制朝向,但是后期由于数量过大,要换成图片,于是探究乐y
2021-06-01 09:37:00 8580 4
原创 Cesium 利用callbackproperty实现鼠标移入高亮
一、需求来源项目中会绘制许多条折线,用户要求实现鼠标悬浮在折线上时突出显示整条折线。二、核心思想为每个entity设置id,同时设置一个全局变量作为当前被选中的id; 在callbackproperty中判断当前选中的实体是否和自己属于同一条曲线,由此返回不同的属性值; 设置鼠标监听事件,根据鼠标悬浮的位置重置当前被选中的id;三、效果四、代码实现1. 绘制曲线函数(包含callbackproperty的写法)let selectEntityID = "";funct
2021-05-20 16:11:10 2025
原创 Cesium 使用Canvas 为billboard构造图片
目录一、需求来源二、实现方法三、效果一、需求来源1. 提升网页渲染性能,在使用cesium加载label实体的时候会自动将文字渲染成图片,这一过程中效率较慢,如果需要绘制大量label,利用canvas建议自己构造图片,然后利用billboard进行加载。2. 目标需要使用特殊字体进行绘制,利用canvas构造文字。二、实现方法js代码:// 创建二维画布const canvas = document.createElement('canvas');const.
2021-05-20 14:09:28 3683 1
原创 Vscode 使用 Code Runner 输出乱码,不只中文
一、问题描述在配置完vsode后,使用Run Coder运行代码,无论中英文,输出结果都是乱码:使用一些网络上的常用处理方案都无法解决,例如:进入run coder的设置进行修改。二、问题解决原因是我的代码是直接github下载下来的,文件最前面带了前缀:"#!/usr/bin/python" 去掉这个前缀再运行即可:删除第一行代码后的运行结果:三、原因分析“#!/usr/bin/python” 的作用是指定解释器的路径,我们使用vscode就不需要在代码中进行指
2021-05-18 10:59:39 1938
原创 Apriori算法
文章目录一、定义、解释和术语二、Apriori算法1.某一个项集是频繁的,那么它的所有子集也是频繁的。2.{0,1,2,3}是频繁相集,如果{0,1,2}->{3}不满足关联规则的可信度要求,那么任何左部为{0,1,2}的子集都不满足最小可信度的要求。例如:12->03, 02->13, 等等,都不满足。一、定义、解释和术语翻译:先验的;推测的;自原因推及结果地。Apriori算法是种挖掘关联规则的频繁项集算法,一种最有影响的挖掘布尔关联规则频繁项集的算法。关联分析是一种在大规模
2021-05-17 15:32:12 2516
原创 Ubuntu 离线安装node和npm
一、下载二进制文件网址:https://nodejs.org/zh-cn/download/二、解压tar xf node-v10.9.0-linux-x64.tar.xz三、设置软连接ln -s /usr/software/nodejs/bin/npm /usr/local/bin/ ln -s /usr/software/nodejs/bin/node /usr/local/bin/四、测试...
2021-05-12 11:12:28 1819
原创 【 2021亲测可用】Ubuntu16.04 基于deepin-wine 安装微信
gedit deepin-wine-install.sh #新建sh文件 将下面代码复制到文件中sudo chmod +x ./deepin-wine-install.sh #变为可执行文件sudo ./deepin-wine-install.sh #执行命令安装deepin-wine环境deepin-wine-install.sh中的内容如下:#!/bin/bashmkdir ./deepintempcd ./deepintempwget https://packages.deep.
2021-05-07 22:03:42 932 6
原创 Ubuntu 屏幕显示不完整
进入Ubuntu系统后,发现壁纸只能设置一半,另一半区域无法使用,壁纸也无法覆盖:解决方案:把过多的隐藏文件移走mv ~/.cache ~/.cache-NOGOODsudo reboot
2021-05-07 10:24:08 1519
原创 Imitation Learning
Imitation Learning,也被称作learning from demonstration 或者 apprenticeship learning。针对的是没有回报的场景。文章目录1. 介绍Imitation Learning2. Behavior CloningInverse RL1. 介绍Imitation Learning在 Imitation learning 里面,你有一些 expert 的 demonstration,那 machine 也可以跟环境互动,但它没有办法从环境里面得到
2021-04-21 21:43:14 707
原创 强化学习中Sparse Reward问题该怎么解决?
Sparse Reward 是指稀疏回报,在很多强化学习场景中,大多数情况下是没有回报的,举个例子来说:假设你要训练一个机器手臂,然后桌上有一个螺丝钉跟螺丝起子,那你要训练它用螺丝起子把螺丝钉栓进去,这是很难的。因为一开始你的 agent 是什么都不知道的,它唯一能够做不同的 action 的原因是 exploration,也就是会有一些随机性,让它去采取一些过去没有采取过的 action,那你要随机到说,它把螺丝起子捡起来,再把螺丝栓进去,然后就会得到 reward 1,这件事情是永远不可能发生的。如
2021-04-19 17:13:50 1623 3
原创 【详解+推导!!】DQN
DQN,Deep Q-Network 是Q-Learning和深度网络结合的一种算法,在很多强化学习问题中表现优异。在看DQN之前建议先了解一下Q-Learning的基本原理:https://blog.csdn.net/qq_33302004/article/details/114871232也可以看一下value-based 和 policy-based 方法的基本介绍:https://blog.csdn.net/qq_33302004/article/details/115189857文章目录1.
2021-04-16 16:30:28 2461
原创 Linux根据端口号查看进程并杀死
1. 根据端口号查找占用进程lsof -i :80802. 查看进程详细信息ps -ef | grep 进程号3. 杀死进程kill -9 进程号
2021-04-14 11:44:08 645
原创 【详解+推导!!】PPO 近端策略优化
近端策略优化(PPO, Proximal Policy Optimization)是强化学习中十分重要的一种算法,被 OpenAI 作为默认强化学习算法,在多种强化学习应用中表现十分优异。文章目录From On-policy to Off-policyImportance SamplingFrom On-policy to Off-policy如果被训练的agent和与环境做互动的agent(生成训练样本)是同一个的话,那么叫做on-policy(同策略)。如果被训练的agent和与环境做互动的a
2021-04-13 21:23:27 6051 4
原创 【详解+推导!!】Pathwise Derivative Policy Gradient(PDPG)
Pathwise Derivative Policy Gradient(PDPG) 是一种强化学习方法,可以解决连续动作的问题。文章目录1. 前缀知识2. 如何理解这个算法与Actor-Critic对比理解与Q-Learning对比理解3. 算法过程1. 前缀知识如果想比较深刻的理解Pathwise Derivative Policy Gradient(PDPG)需要提前了解一下内容:Policy Gradient:https://blog.csdn.net/qq_33302004/article
2021-04-09 15:20:56 2238 1
Connecting Generative Adversarial Network and Actor-Critic Methods.pdf
2021-04-09
基于Attenton_LSTM神经网络的船舶航行预测_徐国庆.pdf
2021-03-06
基于CNN和Bi_LSTM的船舶航迹预测_刘姗姗.pdf
2021-02-23
基于BP神经网络的船舶航迹实时预测_徐婷婷.pdf
2021-02-23
基于循环神经网络的船舶航迹预测_胡玉可.pdf
2021-02-22
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人