保护我方vivian-CSDN博客

原创动态规划经典问题_python_leecode

博物馆大盗问题tr = [None, {'w':2,"v":3}, {'w':3,"v":4}, {'w':4,"v":8}, {'w':5,"v":8}, {'w':9,"v":10}]# 题目要求max_w = 20# 初始化表格table=[]for i in range(len(tr)): table.append([0]*max_w) for i in range(1, len(table)): for w in range(max_w):

2021-09-23 21:03:29 132

原创 ubunutu个人配置

gcc 4.8.5cuda cudnn pytorch版本之间要保证对应git clone 遇到问题：fatal: unable to access ‘https://github.comxxxxxxxxxxx’: Failed to connect to xxxxxxxxxxxxx将命令行里的http改为git重新执行。

2021-03-08 22:06:34 172

原创 pytorch中tensorboard的使用

from tensorboardX import SummaryWriterwriter = SummaryWriter('./log')for i in range(100): writer.add_scalar('y=x', i, i)writer.close()终端输入tensorboard --logdir=./log --port=6007

2021-02-04 23:04:59 125

原创强化学习算法复现（六）：PG（reinforce）_gym倒立摆

import gymimport numpy as npfrom itertools import countimport torchimport torch.nn as nnimport torch.nn.functional as Fimport torch.optim as optimfrom torch.distributions import Categoricalenv = gym.make('CartPole-v1')env.seed(1)torch.manual_s.

2020-12-23 15:55:49 835

原创强化学习算法复现（六）：DoubleDQN_gym倒立摆

建立RL_brain.pyimport torchimport torch.nn as nnimport torch.nn.functional as F # 导入torch.nn.functional （激活函数）import numpy as npclass Net(nn.Module): # 建立网络 def __init__(self, N_STATES, N_ACTIONS): nn.Module.__init__(self)

2020-12-21 22:43:48 1172

原创强化学习算法复现（五）：对比Sarsa、Sarsa（λ)与Qlearning_机器人寻宝问题\

问题描述（使用了openAI_gym的接口）：机器人寻宝，红点为机器人，黑色为陷阱，黄色为宝藏。import randomimport gymfrom gym.utils import seedingclass GridEnv(gym.Env): """ Description: 挖宝图 Observation: Type: Discrete(8) 【1.2.3.4.5.6.7.8】 .

2020-12-16 22:34:53 1315 5

原创强化学习算法复现（四）：online/offline_forward/backward_TD(λ)的价值预测能力_随机游走问题

import numpy as npfrom tqdm import tqdmimport matplotlibimport matplotlib.pyplot as pltplt.rcParams['font.sans-serif'] = ['SimHei'] # 正确显示中文plt.rcParams['axes.unicode_minus'] = False # 正确显示正负号from TD1 import *N_STATES = 19 # 共有19个状态GAMMA = 1

2020-12-12 20:47:01 587 1

原创强化学习算法复现（四）：n步自举法的价值预测能力_随机游走问题

问题描述：以中心状态C开始，在每个时刻以相同的概率向左或向右移动一个状态，在两端终止，episode终止于最右侧时会有+1的收益，除此之外收益均为0。目标：对比如表所示的区别于联系，所含内容包括时序差分、n步自举、资格迹。...

2020-12-04 23:17:29 2428 4

原创强化学习算法复现（三）：蒙特卡洛方法_21点游戏

相关知识结构如下：在本次复现中，使用的gym中的21点游戏模块part1、环境测试：以随机策略玩n局游戏import gymenv = gym.make('Blackjack-v0')# print(env.observation_space)# print(env.action_space)# 以随机策略玩n局def random_play(n): for i_episode in range(n): state = env.reset() # 状态随机初始

2020-11-04 16:01:14 1232

原创强化学习算法复现（二）：动态规划_杰克租车问题【价值迭代】

价值迭代的思想是改变最优价值函数，使其包括对所有动作的评估。这样我们就可以只关注值函数的收敛过程，只要值函数达到最优，那策略也达到最优，值函数没有最优，策略也还没有最优。简化了迭代步骤。...

2020-10-23 15:42:46 1600 2

原创强化学习算法复现（二）：动态规划_杰克租车问题【策略迭代】

将上文的代码做出动画，策略选择和策略评估过程如下动图代码过程如下所示：from matplotlib import pyplot as pltimport numpy as npfrom matplotlib import animationfrom scipy.stats import poisson # 统计学的包，用于生成泊松分布plt.rcParams['font.sans-serif'] = ['SimHei'] # 正确显示中文plt.rcParams['axes.unico

2020-10-22 18:54:11 1924

原创【研究生必备】【效率】两台电脑共用一套鼠标键盘（非局域网情况）

情况简介：一台实验室配的台式机，有线上网一台自己的笔记本，校园无线上网step1：建立虚拟局域网以管理员身份进入cmdnetsh wlan set hostednetwork mode=allow ssid=设置的虚拟局域网名称 key=设置虚拟局域网密码step2:打开虚拟局域网以管理员身份进入cmdcd C:\Windows\System32netsh wlan start hostednetwork 如果嫌每次开机后输入麻烦，可以在桌面上写一个bat文件...

2020-10-17 22:08:14 5888 1

原创强化学习算法复现（一）:k臂赌博机问题

问题描述：问题类似于老虎机（单臂赌博机），不同之处是它有k个控制杆，每次动作选择相当于拉动老虎机的一个控制杆，我们希望通过强化学习的方法，让智能体能够通过重复地选择学习，来最大化最终的奖金值。复现结果：环境可视化：蓝色为各个按键的真实收益；绿色为智能体对按键的估计收益；红色为智能体的选择。代码实现1、环境搭建：import numpy as npglobal valuevalue = np.array([0.0]*10, dtype=float) #初始化全局变量q = np.ar

2020-09-24 19:23:22 1613 1

原创使用MobaXterm进行对ubunbu系统的文件管理

一、在ubuntu1、安装SSH client and Serversudo apt-get install openssh-clientssh-keygensudo apt-get install openssh-server2、确认启动ps -e|grep ssh如果没有启动，则sudo/etc/init.d/ssh start3、查找ip地址ifconfig二、在windows的MobaXterm点击Session 点击SSH Remote host 填入刚才查的ip地址，输入

2020-07-14 12:46:08 398

原创基于C++的opencv中的DMatch类和keypoint类

KeyPointCV_WRAP KeyPoint()：pt(0,0)，size(0），angle(-1)，response(0)，class_id(-1){}pt(x,y):关键点的坐标；size():关键点邻域直径大小；angle：角度，表示关键点的方向，值为[0，360]，负值表示不使用。response：关键点的响应程度，response代表着该关键点how good，响应越强，关键点越好。octave：代表是从金字塔哪一层提取的得到的数据。class_id：当要对图片进行分类时，我们可

2020-07-01 15:43:04 1166

原创 C/C++中const char * 、char const 、 char const 三者的区别

const char *ptr定义一个指向字符常量的指针，*ptr不能修改，char const *ptr与1等价char * const ptr定义一个指向字符的指针常数，ptr不能修改，但const *ptr(指针指向的内容)可以修改

2020-06-30 11:54:01 270

原创 C++中的Mat, const Mat, Mat &,Mat &, const Mat &的区别

Mat, copy传递，不会改变外部变量的Mat。Mat &, reference传递，函数内部修改将会改变外部。const Mat, copy传递，在函数内，不会被修改，也不会影响到外部的变量。const Mat &, reference传递，确保在函数内外，都不会被修改。...

2020-06-30 10:58:21 721

原创参考文献，bib文件格式

bib文件格式@article期刊杂志的论文必要域: author, title, journal, year.可选域: volume, number, pages, month, note.@book公开出版的图书必要域: author/editor, title, publisher, year.可选域: volume/number, series, address, edition, month, note.@booklet无出版商或作者的图书必要域: title.可选域: a

2020-06-12 10:28:21 2882

原创 Latex中将图例（图1：）改为（图1-1）

\usepackage{caption}\begin{document}\captionsetup{labelformat=default,labelsep=space} \renewcommand\thefigure{\arabic{section}-\arabic{figure}}\section{第一章标题}\setcounter{figure}{0} %将图序号清零\begin{figure}[H]\centering\includegraphics[scale=1]{pic

2020-05-25 18:48:32 5688 1

原创傅里叶分析——思维导图

傅里叶分析数学原理三角函数的正交性欧拉公式由时域到复频域的映射关系绝对可积的概念串联知识周期为2Π的函数展开为傅里叶级数周期为T周期无穷大，引入傅里叶变换连续时间傅里叶变换CTFT拉普拉斯变换离散时间傅里叶变换DTFTz变换利用计算机——离散傅里叶变换DFT快速傅里叶变换FFTXMind - Trial...

2020-04-30 15:43:18 1503

原创 Decision_function：scores，predict之间的关系

Decision_function：scores，predict之间的关系在二分类问题绘制ROC曲线时候，对于随机森林和深度森林等其他模型没有Decision_function这个函数时候的解决办法。predict：用于分类模型的预测分类，返回值是类别；predict_proba：也是用于预测分类，返回值是预期分类的概率；在画ROC曲线时候要得到scores需要进行切片操作！！！！fro...

2020-04-28 00:38:39 1280 1

qq_42138927的博客