自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(132)
  • 资源 (10)
  • 收藏
  • 关注

原创 【详解+推导!!】马尔可夫决策过程

马尔可夫决策过程, Markov Decision Process, MDP文章目录一、为什么需要马尔可夫决策过程?二、马尔可夫决策过程1. 马尔可夫性2. 随机过程3. 马尔可夫过程4. 马尔可夫决策过程三、策略与累计回报1. 策略2. 累计回报四、值函数1. 值函数2. “状态值函数”与“状态-行为值函数”五、什么是强化学习算法?一、为什么需要马尔可夫决策过程?[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-YTGUytIs-1616223214043)(2021-0

2021-03-20 14:54:51 8161 6

原创 Python从0到1

浏览目录①常用字符串操作:https://blog.csdn.net/qq_33302004/article/details/112858982②常用基本操作:https://blog.csdn.net/qq_33302004/article/details/112859236

2021-01-20 10:35:32 235

原创 【拒绝造车轮】韦伯分布-Python

本系列目的在于记录日常使用的非常用包。算法研究中常会遇到需要使用某些数学工具的情况,这些数学工具往往涉及公式推导,初次使用了解原理+算法实现需要花费大量时间,同时这些数学工具大部分都已经被实现过了,拒绝造车轮可以让我们把更多的精力花费在核心难题中。

2022-10-09 17:03:40 259

原创 Python 多线程/多进程计算

python 多线程计算demo

2022-09-19 17:12:31 142

原创 Golang 极速入门1小时版本

一小时左右极速完成Go语言入门,如果有其他编程语言基础,基本就可以进行正常编码了。内容覆盖:变量、判断、循环、函数、数组、指针、结构体、类型转换、接口类、并行

2022-06-18 01:12:36 45

转载 web前端+python后端打包发布

前端打包:前端web项目打包(二) - anyejin - 博客园python打包:python脚本打包成exe+配置文件_yxtchc的博客-CSDN博客_python 打包及配置文件

2022-01-19 17:16:33 252

原创 Cesium 设置空白处菜单和右键菜单

一、先看效果二、代码实现1. 先在html页面中实现两个右键菜单的样式。2. 设置ceisum中的鼠标右键监听事件//鼠标右键事件监听function EventListener_MouseRightClick (handler) { handler.setInputAction(function (evt) { //设置监听方法 var scene = viewer.scene; pick = sce.

2021-06-01 10:16:04 921 4

原创 Cesium 设置实体(模型、图片)的朝向

一、需求来源在项目中,需要绘制汽车并且设置其朝向,原始方式是使用模型绘制,便可以很容易的通过设置orientation属性控制朝向,但是后期由于数量过大,要换成图片,于是探究乐y

2021-06-01 09:37:00 3134 1

原创 Cesium 利用callbackproperty实现鼠标移入高亮

一、需求来源项目中会绘制许多条折线,用户要求实现鼠标悬浮在折线上时突出显示整条折线。二、核心思想为每个entity设置id,同时设置一个全局变量作为当前被选中的id; 在callbackproperty中判断当前选中的实体是否和自己属于同一条曲线,由此返回不同的属性值; 设置鼠标监听事件,根据鼠标悬浮的位置重置当前被选中的id;三、效果四、代码实现1. 绘制曲线函数(包含callbackproperty的写法)let selectEntityID = "";funct

2021-05-20 16:11:10 831

原创 Cesium 使用Canvas 为billboard构造图片

目录一、需求来源二、实现方法三、效果一、需求来源1. 提升网页渲染性能,在使用cesium加载label实体的时候会自动将文字渲染成图片,这一过程中效率较慢,如果需要绘制大量label,利用canvas建议自己构造图片,然后利用billboard进行加载。2. 目标需要使用特殊字体进行绘制,利用canvas构造文字。二、实现方法js代码:// 创建二维画布const canvas = document.createElement('canvas');const.

2021-05-20 14:09:28 1901

原创 Vscode 使用 Code Runner 输出乱码,不只中文

一、问题描述在配置完vsode后,使用Run Coder运行代码,无论中英文,输出结果都是乱码:使用一些网络上的常用处理方案都无法解决,例如:进入run coder的设置进行修改。二、问题解决原因是我的代码是直接github下载下来的,文件最前面带了前缀:"#!/usr/bin/python" 去掉这个前缀再运行即可:删除第一行代码后的运行结果:三、原因分析“#!/usr/bin/python” 的作用是指定解释器的路径,我们使用vscode就不需要在代码中进行指

2021-05-18 10:59:39 1112

原创 Apriori算法

文章目录一、定义、解释和术语二、Apriori算法1.某一个项集是频繁的,那么它的所有子集也是频繁的。2.{0,1,2,3}是频繁相集,如果{0,1,2}->{3}不满足关联规则的可信度要求,那么任何左部为{0,1,2}的子集都不满足最小可信度的要求。例如:12->03, 02->13, 等等,都不满足。一、定义、解释和术语翻译:先验的;推测的;自原因推及结果地。Apriori算法是种挖掘关联规则的频繁项集算法,一种最有影响的挖掘布尔关联规则频繁项集的算法。关联分析是一种在大规模

2021-05-17 15:32:12 1413

原创 Ubuntu 离线安装node和npm

一、下载二进制文件网址:https://nodejs.org/zh-cn/download/二、解压tar xf node-v10.9.0-linux-x64.tar.xz三、设置软连接ln -s /usr/software/nodejs/bin/npm /usr/local/bin/ ln -s /usr/software/nodejs/bin/node /usr/local/bin/四、测试...

2021-05-12 11:12:28 569

原创 【 2021亲测可用】Ubuntu16.04 基于deepin-wine 安装微信

gedit deepin-wine-install.sh #新建sh文件 将下面代码复制到文件中sudo chmod +x ./deepin-wine-install.sh #变为可执行文件sudo ./deepin-wine-install.sh #执行命令安装deepin-wine环境deepin-wine-install.sh中的内容如下:#!/bin/bashmkdir ./deepintempcd ./deepintempwget https://packages.deep.

2021-05-07 22:03:42 665 6

原创 Ubuntu 屏幕显示不完整

进入Ubuntu系统后,发现壁纸只能设置一半,另一半区域无法使用,壁纸也无法覆盖:解决方案:把过多的隐藏文件移走mv ~/.cache ~/.cache-NOGOODsudo reboot

2021-05-07 10:24:08 1087

原创 强化学习资料汇总

http://deeprl.neurondance.com/d/154/3

2021-04-26 10:35:26 175

原创 Imitation Learning

Imitation Learning,也被称作learning from demonstration 或者 apprenticeship learning。针对的是没有回报的场景。文章目录1. 介绍Imitation Learning2. Behavior CloningInverse RL1. 介绍Imitation Learning在 Imitation learning 里面,你有一些 expert 的 demonstration,那 machine 也可以跟环境互动,但它没有办法从环境里面得到

2021-04-21 21:43:14 160

原创 强化学习中Sparse Reward问题该怎么解决?

Sparse Reward 是指稀疏回报,在很多强化学习场景中,大多数情况下是没有回报的,举个例子来说:假设你要训练一个机器手臂,然后桌上有一个螺丝钉跟螺丝起子,那你要训练它用螺丝起子把螺丝钉栓进去,这是很难的。因为一开始你的 agent 是什么都不知道的,它唯一能够做不同的 action 的原因是 exploration,也就是会有一些随机性,让它去采取一些过去没有采取过的 action,那你要随机到说,它把螺丝起子捡起来,再把螺丝栓进去,然后就会得到 reward 1,这件事情是永远不可能发生的。如

2021-04-19 17:13:50 945 3

原创 【详解+推导!!】DQN

DQN,Deep Q-Network 是Q-Learning和深度网络结合的一种算法,在很多强化学习问题中表现优异。在看DQN之前建议先了解一下Q-Learning的基本原理:https://blog.csdn.net/qq_33302004/article/details/114871232也可以看一下value-based 和 policy-based 方法的基本介绍:https://blog.csdn.net/qq_33302004/article/details/115189857文章目录1.

2021-04-16 16:30:28 612

原创 Linux根据端口号查看进程并杀死

1. 根据端口号查找占用进程lsof -i :80802. 查看进程详细信息ps -ef | grep 进程号3. 杀死进程kill -9 进程号

2021-04-14 11:44:08 359

原创 【详解+推导!!】PPO 近端策略优化

近端策略优化(PPO, Proximal Policy Optimization)是强化学习中十分重要的一种算法,被 OpenAI 作为默认强化学习算法,在多种强化学习应用中表现十分优异。文章目录From On-policy to Off-policyImportance SamplingFrom On-policy to Off-policy如果被训练的agent和与环境做互动的agent(生成训练样本)是同一个的话,那么叫做on-policy(同策略)。如果被训练的agent和与环境做互动的a

2021-04-13 21:23:27 1338 2

原创 【详解+推导!!】Pathwise Derivative Policy Gradient(PDPG)

Pathwise Derivative Policy Gradient(PDPG) 是一种强化学习方法,可以解决连续动作的问题。文章目录1. 前缀知识2. 如何理解这个算法与Actor-Critic对比理解与Q-Learning对比理解3. 算法过程1. 前缀知识如果想比较深刻的理解Pathwise Derivative Policy Gradient(PDPG)需要提前了解一下内容:Policy Gradient:https://blog.csdn.net/qq_33302004/article

2021-04-09 15:20:56 897

原创 【详解+推导!!】Actor-Critic 演员评论家算法

Actor-Critic,演员评论家算法是强化学习中的一种很实用的方法。比较详细的推导可以看:https://datawhalechina.github.io/easy-rl/#/chapter9/chapter9?id=actor-critic-1文章目录1. 简介2. Review: Policy Gradient3. Review: Q-Learning3. Actor-Critic4. Advantage Actor-Critic整个过程如下:Tips:5.A3C, Asynchronous

2021-04-09 10:28:28 4163

原创 【详解+推导!!】Policy Gradient 策略梯度法

Policy Gradient,策略梯度法是强化学习中的一种常用方法。比较详细的推导可以看:https://datawhalechina.github.io/easy-rl/#/chapter4/chapter4?id=tips文章目录1. 定义强化学习的问题2. Policy Network3. Policy Network 训练过程如下:4. 实现过程中的TipsTip 1: Add a BaselineTip 2: Assign Suitable Credit1. 定义强化学习的问题强化学习由

2021-04-07 22:23:30 1067

原创 【详解+推导!!】蒙特卡洛方法、接受拒绝采样、重要性采样、MCMC方法

蒙特卡洛方法、接受拒绝采样、重要性采样、MCMC方法文章目录一、蒙特卡洛方法1. 什么是蒙特卡洛方法2. 蒙特卡洛积分推导3.python实例承上启下二、接受-拒绝采样1. 核心思想介绍2. 例子三、重要性采样1. 普通重要性采样2. 方差分析3. 加权重要性采样四、MCMC方法1. 马氏链平稳分布2. 平稳分布判定:细致平稳条件3. 构造状态转移概率矩阵PPP4. MCMC的算法步骤5. Metropolis-Hastings采样方法最后推荐几篇相关文章:一、蒙特卡洛方法1. 什么是蒙特卡洛方法蒙

2021-03-30 22:44:59 2169 2

原创 bilibili手机端追剧在哪里?

问题的产生最近在bilibili看剧,发现在手机上怎么也找不到追剧在哪里,由此产生本篇博文。在哪里首先进入bilibili,点击我的而后点击收藏点击追剧这样就找到追剧啦

2021-03-25 10:42:10 2411

原创 策略迭代算法和值函数迭代算法

策略迭代算法和值函数迭代算法文章目录1. 回顾与引言2. 思路介绍3. 策略评估算法3. 策略优化算法4. 策略迭代算法和值函数迭代算法5. 代码实现6. 强化学习与最优控制1. 回顾与引言上一章中介绍了马尔科夫决策过程(MDP),也介绍了状态值函数和行为-状态值函数的计算方法。由此我们已经完成了对强化学习问题的建模过程,我们知道强化学习就是寻找一个最优策略π\piπ,保证一个已知的MDP(S,A,P,r,γ)(S, A, P, r, \gamma)(S,A,P,r,γ)的累计回报期望最大,也就是:

2021-03-24 22:50:24 2558

原创 【解决方案!!】Ubuntu 18.04 鼠标+键盘突然失效

问题描述:今天重启电脑后,进入ubuntu系统,发现鼠标键盘突然失效,多次重启后仍然没有反应。原因分析:原应该是今天在安装mucojo时候损坏了 xserver-xorg-input-all,导致输入设备失灵,所以重新安装这个包即可。解决方案:1. 重启电脑,在系统选择界面中选择“ubuntu的高级选项”2. 选择带有“recovery mode”字样的选项3. 保证network一项是 enable的,然后选中“Drop to root shell pro...

2021-03-24 18:49:11 6333 6

原创 Ubuntu 中 Anaconda 连接超时处理方法

问题描述:今天在使用conda创建新的虚拟环境的时候出现“CondaHTTPError: HTTP 000 CONNECTION FAILED”的错误,具体错误如下:gzy@gzy-ThinkPad-X1-Extreme:~$ conda create -n gymlab python=3.5Solving environment: failedCondaHTTPError: HTTP 000 CONNECTION FAILED for url <https://repo.anacon

2021-03-24 10:00:16 649

原创 什么是强化学习?

什么是强化学习?文章目录1. 强化学习可以应用的场景2. 强化学习要解决的问题3. 强化学习主要研究思路和研究点:4. 强化学习与监督和非监督学习的对比5. 强化学习的分类6. 常用的技术和方法1. 强化学习可以应用的场景具体内容:游戏博弈、下棋、投资、课程安排、驾车、动作模仿;应用领域:机器人控制、汽车智能驾驶、人机对话、过程优化决策与控制等。2. 强化学习要解决的问题智能决策问题,更确切的说是序贯决策问题;所谓序贯决策问题就是需要连续不断的做决策才能实现最终目标的问题,如小车二级摆、

2021-03-18 11:36:09 291

原创 VScode 常用快捷键

VScode 常用快捷键 序号 功能 快捷键 1 进入Zen模式 Ctrl Z + K 2 全屏显示 F11 3 format(代码格式化) (ubuntu) Ctrl+Shift+I (windows) Shift+Alt+F 4 转到行数 Ctrl + G 5 匹配下一个相同项 Ctrl + D 6 选...

2021-03-18 10:43:55 90

原创 Sarsa/Sarsa(lambda)介绍、算法、以及与Q-Learning的对比

学习过程来自莫烦大神的视频:https://www.bilibili.com/video/BV13W411Y75P?p=9文章目录1. Sarsa与Q-Learning对比2. Sarsa(lambda)介绍3. Sarsa(lambda)算法1. Sarsa与Q-Learning对比两者决策部分相同,都是在Q表中选择价值较大的动作两者更新方式不同:QL的 Q现实 = R + γ * maxQ(s2),使用s2状态下的最大价值更新Q表,但是在下一步的s2状态下,不一定使用这个产生最大价值的动

2021-03-16 17:09:59 647 1

原创 Q Learning概念、更新、代码实现

学习过程来自莫烦大神的视频:https://www.bilibili.com/video/BV13W411Y75P?p=5Q Learning概念、更新、代码实现1. 什么是Q Learning?2. Q表是如何更新的?3. Q Learning伪代码4. Q Learning简单实现:1维探索者例子1. 什么是Q Learning?Q Learning 是一种决策过程Q Learning 是一个offline学习过程存在以下的概念:当前智能体的状态:S(state)动作行为:A(act

2021-03-16 11:18:17 1081

原创 论文阅读:基于 Attenton-LSTM 神经网络的船舶航行预测

论文阅读:基于 Attenton-LSTM 神经网络的船舶航行预测论文地址:https://download.csdn.net/download/qq_33302004/15612606?spm=1001.2014.3001.5501目录1. 摘要2. 网络结构和训练过程3. 实验4. 亮点1. 摘要2. 网络结构和训练过程(1)注意力机制注意力机制被广泛应用于回归问题中。本文用到的注意力机制是点积注意力,是输入序列 X 的加权和,表示每一特征维度的权重:

2021-03-06 15:21:31 1351 4

原创 论文阅读:基于 LSTM 的船舶航迹预测

论文阅读:基于 LSTM 的船舶航迹预测论文下载地址:https://download.csdn.net/download/qq_33302004/15611798目录1. 摘要2. 预测模型结构和流程3. 实验结果4. 有趣的想法1. 摘要2. 预测模型结构和流程(1)输入与输出输出:(t+1 )时刻的经度和纬度(预测目标)输入:t 时刻以及前(n-1)时刻的经度、纬度、航速、航向(2)数据预处理采用“分箱”的方式实现异常值剔除:

2021-03-06 13:33:07 2257 6

原创 论文阅读:基于LSTM的船舶航迹预测模型

论文阅读:基于LSTM的船舶航迹预测模型论文下载:https://download.csdn.net/download/qq_33302004/15449386目录1. 摘要2. 文章段落主要内容概括3. 预测模型4. 实验5. 主要贡献和有趣的思想1. 摘要2. 文章段落主要内容概括第一章 引言:介绍了一些传统的预测方法(包括卡尔曼滤波、竞争神经网络、灰度预测、马尔科夫链等),表示由于船舶运动具有复杂性,传统建立数学方程的方法难以完成准确预测;而后又介绍了BP网

2021-02-24 16:11:49 2499 2

原创 论文阅读:基于CNN和Bi_LSTM的船舶航迹预测

论文阅读:基于CNN和Bi_LSTM的船舶航迹预测论文下载:1. 摘要2. 主要贡献① 根据AIS数据,设计了一种混合深度学习网络预测船舶航迹预测方法。混合深度学习是指基于卷积神经网络(CNN)+双向长短时记忆网络(Bi-LSTM)的网络模型。② CNN(这篇文章使用的是一维卷积)的目的是用来提取数据之间的潜在关系,形成特征向量,再送入双向LSTM网络用于关联历史和未来数据的影响。作者认为,CNN可以学习数据中的依赖关系,但是如果网络输入序列的长度增加,CNN捕获依赖关系的能会.

2021-02-23 20:45:31 2580 4

原创 论文阅读:基于 BP 神经网络的船舶航迹实时预测

论文阅读:基于 BP 神经网络的船舶航迹实时预测论文下载:1. 摘要2. 主要贡献① 采用三层BP神经网络完成航迹预测,预测输入为航向和航速,输出为经度和维度差。② 文中提到了VTS(vessel traffic service,船舶交通服务)和ATMS(我认为是VTMS,vessel trafficmanagement system,船舶交通管理系统 ),这是我之前没有遇到的。③ 网络结构较为简单,但是输入输出有些不太一样,可以注意一下。输入为航向、航速,输出为经度差、纬.

2021-02-23 10:18:12 984

原创 论文阅读:基于循环神经网络的船舶航迹预测

论文阅读:基于循环神经网络的船舶航迹预测论文下载:https://download.csdn.net/download/qq_33302004/15421819目录1. 摘要2. 主要贡献3. 一些有趣的观点4. 基于SSPD的数据预处理方法5. GRU循环神经网络预测模型6. 实验1. 摘要2. 主要贡献提出了一种基于循环神经网络的船舶航迹预测方法,主要包含两个部分:数据预处理(SSPD)和循环神经网络预测模型,算法流程如下:实验结果:平均计算耗时1

2021-02-22 20:19:39 1504

原创 Tkinter——⑧Menubar菜单

Tkinter——Menubar菜单python入门常用操作:https://blog.csdn.net/qq_33302004/article/details/112859327import tkinter as tkwindow = tk.Tk()window.title('menubar')window.geometry('400x400')label = tk.Label(window, bg='yellow', text='', width=20)label.pack.

2021-02-05 11:02:02 95

Apriori算法在学生成绩中的关联性研究_李正龙.pdf

Apriori算法在学生成绩中的关联性研究_李正龙.pdf

2021-05-17

Hierarchical Reinforcement Learning with Hindsight

分层强化学习的paper

2021-04-19

facebook VizDoom 论文

facebook 在机器的 VizDoom 比赛中得到了第一名,其中涉及到了强化学习在sparse reward的环境中使用Reward Shaping和Curriculum Learning的技巧。

2021-04-19

Connecting Generative Adversarial Network and Actor-Critic Methods.pdf

Connecting Generative Adversarial Network and Actor-Critic Methods.pdf

2021-04-09

基于Attenton_LSTM神经网络的船舶航行预测_徐国庆.pdf

论文讲解:https://blog.csdn.net/qq_33302004/article/details/114441024

2021-03-06

基于LSTM的船舶航迹预测_陈凯达.pdf

论文讲解:https://blog.csdn.net/qq_33302004/article/details/114437385

2021-03-06

基于LSTM的船舶航迹预测模型_权波.pdf

论文讲解:https://blog.csdn.net/qq_33302004/article/details/114022635

2021-02-24

基于CNN和Bi_LSTM的船舶航迹预测_刘姗姗.pdf

论文讲解:https://blog.csdn.net/qq_33302004/article/details/113992765

2021-02-23

基于BP神经网络的船舶航迹实时预测_徐婷婷.pdf

文章讲解介绍:https://blog.csdn.net/qq_33302004/article/details/113971171

2021-02-23

基于循环神经网络的船舶航迹预测_胡玉可.pdf

文章讲解介绍:https://blog.csdn.net/qq_33302004/article/details/113951504

2021-02-22

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除