几度热忱-CSDN博客

原创【动手学强化学习】第 7 章 DQN算法知识点总结

【动手学强化学习】第 7 章 DQN算法知识点总结本章知识点离散和连续的概念CartPole 环境DQN算法简介�Q网络的损失函数经验回放目标网络DQN 代码实践适用于以图像为输入的 Q网络

2024-05-24 19:02:36 189

原创【动手学强化学习】第 6 章 Dyna-Q 算法知识点总结

【动手学强化学习】第 6 章 Dyna-Q 算法知识点总结本章知识点基于模型的强化学习与无模型的强化学习方法简介无模型的强化学习方法基于模型的强化学习方法强化学习算法的评价指标Dyna-Q算法Dyna-Q 算法的具体流程Dyna-Q 代码实践

2024-05-23 12:50:47 552

原创【动手学强化学习】第 5 章时序差分算法知识点总结

【动手学强化学习】第 5 章时序差分算法知识点总结本章知识点：动态规划与时序差分（temporal difference，TD）的区别时序差分Sarsa算法多步Sarsa算法Q-learning算法在线策略学习和离线策略学习

2024-05-15 15:04:47 873

原创【Docker】Ubuntu下Docker的基本使用方法与常用命令总结

【Docker】Ubuntu下Docker的基本使用方法与常用命令总结。镜像image与容器container的关系基本命令- 查看 Docker 版本- 拉取镜像- 查看系统中的镜像- 删除某个镜像- 列出当前 Docker 主机上的所有容器，包括正在运行的、暂停的、已停止的，以及未运行的容器- 列出当前 Docker 主机上的正在运行的容器- 进入正在运行的容器- 退出容器- 删除容器- 使用 docker start 命令后跟容器 ID 或名称来启动容器- 停止正在运行的容器

2024-05-12 12:28:42 769

原创【深度学习】wandb模型训练可视化工具使用方法

Wandb（Weights & Biases）是一款专为机器学习和深度学习设计的可视化工具，旨在帮助开发者更高效地跟踪、可视化和共享实验结果提供在线平台，可以轻松记录实验的超参数、输出指标以及模型的变化，并通过直观的仪表盘展示这些信息与tensorboard类似，均是机器学习可视化分析工具wandb相较于Tensorboard的优势：1.wandb的日志文件上传云端存储，可永久保存，tensorboard存储在本地2.wandb存储代码，数据集，模型，

2024-04-17 10:10:00 1273

原创【深度学习】执行wandb sync同步命令报错wandb: Network error (SSLError), entering retry loop

【代码】【深度学习】执行wandb sync同步命令报错wandb: Network error (SSLError), entering retry loop。

2024-04-16 20:11:19 404

原创【动手学强化学习】第四章动态规划算法知识点总结

【动手学强化学习】第四章动态规划算法知识点总结动态规划简介基于动态规划的强化学习算法悬崖漫步环境策略迭代算法策略评估：根据ππ计算VπVπ 策略提升：根据VπVπ优化ππ 策略提升定理的证明策略迭代价值迭代算法收敛性证明策略迭代价值迭代总结

2024-04-13 23:19:33 1020

原创【动手学强化学习】第三章马尔可夫决策过程知识点总结

【动手学强化学习】第三章马尔可夫决策过程知识点总结本章知识点：马尔可夫性质马尔可夫过程(也称为马尔可夫链）马尔可夫奖励过程马尔可夫决策过程策略马尔可夫决策过程的状态价值函数马尔可夫决策过程的动作价值函数状态价值函数与动作价值函数的关系贝尔曼期望方程MDP马尔可夫决策过程转换为MRP马尔可夫奖励过程蒙特卡洛方法占用度量最优策略贝尔曼最优方程（Bellman optimality equation）

2024-04-08 12:09:46 649

原创【深度学习环境配置】一文弄懂cuda，cudnn，NVIDIA Driver version，cudatoolkit的关系

查看自身显卡的算力，在此网站中搜索显卡型号，可以看到我显卡对应的算力是7.5该网站的后面有CUDA版本和算力的对应关系，查看显卡算力支持的CUDA版本

2024-04-06 19:32:29 1264

原创【动手学强化学习】第二章多臂老虎机问题知识点总结

【动手学强化学习】第二章多臂老虎机问题本章知识点：探索与利用的含义、多臂老虎机问题、累积懊悔的定义、增量式更新期望奖励、经典探索策略（ϵ-贪婪算法、上置信界UCB算法、汤普森采样算法）

2024-04-06 11:41:30 895

原创【动手学强化学习】第一章初探强化学习知识点总结

动手学强化学习第一章主要的知识点：强化学习的定义、要素、环境、目标、预测与决策的区别、有监督学习与强化学习的区别

2024-04-01 23:16:44 869

原创【Pytorch入门】小土堆PyTorch入门教程完整学习笔记（详细笔记并附练习代码 ipynb文件）

【Pytorch入门】小土堆PyTorch入门教程完整学习笔记（详细笔记文末附练习代码 ipynb文件）

2024-03-28 15:27:17 1804 3

原创【监控GPU】监控NVIDIA GPU显卡占用状态的常用命令

每隔X秒执行一次 nvidia-smi 命令，并持续显示 GPU 的使用情况。这样可以更频繁地更新 GPU 的状态信息，提供更实时的监控数据。nvitop 是一个基于 NVIDIA GPU 的实时性能监控工具，类似于 Linux 系统上的 top 命令。windows下可使用以下命令，可达到类似效果，每秒更新一次信息，但每次都会打印一遍信息体验不是很好。nvitop能够以可视化的方式展示GPU的实时数据，对于监控 GPU 的性能和状态非常有用。每隔 0.5 秒执行一次nvidia-smi命令。

2024-03-23 20:11:54 2642

原创【强化学习公式推导】状态价值函数与动作价值函数贝尔曼期望方程，贝尔曼最优方程推导过程

1.回报2.当前时刻的回报与下一时刻回报的关系3.状态价值函数4.动作价值函数5.状态价值函数与动作状态价值函数的关系6.贝尔曼期望方程7.状态价值函数的贝尔曼期望方程8.动作价值函数的贝尔曼期望方程9.贝尔曼期望方程的另一种理解方式，结合下图理解

2024-03-21 15:53:14 268

原创【强化学习】安装gym==0.18.3报错的解决方法

安装gym==0.18.3报错的解决方法Collecting gym==0.18.3 Using cached gym-0.18.3.tar.gz (1.6 MB) Preparing metadata (setup.py) ... error error: subprocess-exited-with-error × python setup.py egg_info did not run successfully. │ exit code: 1 ╰─> [1 lines

2024-03-18 10:37:52 1141

原创【Anaconda】换源常用命令

虚拟环境换源常见命令

2024-03-15 22:11:04 444

原创【Anaconda报错】DEBUG:urllib3.connectionpool:Starting new HTTPS connection (1): repo.anaconda.com:443

【Anaconda报错】DEBUG:urllib3.connectionpool:Starting new HTTPS connection (1): repo.anaconda.com:443 Collecting package metadata (current_repodata.json): - DEBUG:urllib3.connectionpool:Starting new HTTPS connection (1): conda.anaconda.org:443DEBUG:urllib3.co

2024-03-15 21:16:35 1063

原创【Python】清理conda缓存的常用命令

清理conda缓存的常用命令

2024-03-15 20:38:15 1400

原创【Python】简单方法亲测有效 jupyter notebook安装jupyter_contrib_nbextension扩展后不显示 Nbextensions标签

jupyter notebook安装jupyter_contrib_nbextension扩展后不显示 Nbextensions标签。

2024-03-09 17:51:59 385

原创【Reinforcement Learning】Ubuntu中mujoco210 mujoco_py D4RL安装及错误解决

【Reinforcement Learning】Ubuntu中mujoco210 mujoco_py D4RL安装及错误解决本文根据一篇知乎文章进行配置，记录在配置过程中遇到的一些问题，原文作者的教程很详细

2023-10-20 21:14:35 1742

原创云服务器及域名到期后，公安联网注销指南

云服务器及域名到期后，公安联网注销指南

2022-12-06 12:56:51 1108 2

原创【Python】动手学Python（附示例代码）快速入门

【Python】动手学Python（附示例代码）快速入门，从基础知识，数据类型，运算符，条件控制，循环语句，函数和类7个方面介绍Python，同时附送示例代码，助力快速入门

2022-11-03 18:00:00 805

原创【Python】Jupyter Notebook的安装与基本使用方法

Jupyter Notebook是基于网页的用于交互计算的应用程序。其可被应用于开发、文档编写、运行代码和展示结果。优势在于可以在网页中按单元格分块编写Python代码和 Markdown文字。

2022-10-21 14:08:24 3431 1

原创【Python】安装autopep8包，并在PyCharm中进行配置，以PEP8规范排版代码

安装autopep8包，并在PyCharm中进行配置，以PEP8规范排版代码。

2022-10-19 22:34:15 795

原创配置深度学习环境：在Windows（Win10）中安装CUDA，CUDNN，Pytorch GPU版

配置深度学习环境详细教程：在Windows（Win10）中安装CUDA，CUDNN，Pytorch GPU版

2022-10-18 19:33:41 5339 7

原创 NVIDIA控制面板打开报错，提示nvcplui.exe应用程序错误并显示传递给系统调用的数据区域太小

NVIDIA控制面板打开报错，提示nvcplui.exe应用程序错误并显示传递给系统调用的数据区域太小

2022-10-18 15:46:04 5792 2

原创算法基础课03----双指针算法，位运算，离散化，区间合并例题及题解

算法基础课03----双指针算法，位运算，离散化，区间合并例题及题解

2022-08-15 21:17:46 120

原创算法基础课02----高精度加减乘除，前缀和，差分例题及题解

高精度加减乘除，一维前缀和，二维前缀和，一维差分，二维差分例题及题解

2022-08-09 15:49:24 111

原创算法基础课01----快速排序，归并排序，二分查找模板题目

快速排序，归并排序，二分查找基础模板题目

2022-08-05 12:55:27 151

原创 Win10/Win11内存优化

最近笔记本总是内存占用飙升至90%多，而我本身并没有开多少应用，不知道问题出在了哪里，经过我搜寻发现了windows自带的一款内容优化软件，使用后确实有一定效果，适用于win10,win11其他版本不确定有没有在windows的搜索框搜索内存诊断点击打开，选择重新启动并检查问题等待检查完成即可，过程略长，请耐心等待，确实对于内存高占用有一定的改善，希望可以帮助到大家~...

2022-04-06 14:18:22 1849

原创微信小程序web-view不支持打开非业务域名https //XXXX 请重新配置

微信小程序提供web-view，可以在小程序中加载网页我在微信公众平台中的开发管理—》开发设置中对于服务器域名中的request合法域名进行了正确设置，但是在微信开发者工具中仍然无法跳转网页，显示不支持打开非业务域名https //XXXX 请重新配置

2022-03-31 22:03:53 10117

原创云服务器配置SSL证书实现https访问

云服务器配置SSL证书实现https访问

2022-03-31 15:28:32 1817

原创第k个数（快速排序模板题）

题目：给定一个长度为 n 的整数数列，以及一个整数 k，请用快速选择算法求出数列从小到大排序后的第 k 个数。输入格式第一行包含两个整数 n 和 k。第二行包含 n 个整数（所有整数均在 1∼109 范围内），表示整数数列。输出格式输出一个整数，表示数列的第 k 小数。数据范围1≤n≤100000,1≤k≤n输入样例：5 32 4 1 5 3输出样例：3代码思想给定一个数组 i指针指向数组的最左端，j指针指向数组的最右端给定一个分界点x，可以是数组的第一个位置的值，也可以是

2022-03-30 11:01:15 333

原创动手学深度学习----线性回归的简洁实现

线性回归的简洁实现—调用pytorch中封装好的函数#线性回归的简洁实现import numpy as npimport torchfrom torch.utils import datafrom d2l import torch as d2lfrom torch import nn # nn是神经网络的缩写true_w = torch.tensor([2, -3.4])true_b = 4.2features, labels = d2l.synthetic_data(true_w,

2022-03-29 11:44:48 1229

原创动手学深度学习----线性回归（从0开始实现）

基础概念线性回归的过程是已知数据点，需要通过一条直线来拟合这些点，这条直线对应的参数都是通过线性回归求得例子：假设y = X × w + b y是一个房子的价格 X是一个向量[X1,X2]，X1是面积，X2是位置，是影响y的因素，w是X中对应的权重[w1,w2]T, b 是偏差y=w1 × X1+ w2 × X2+b 通过梯度下降寻找不断更新参数以得到最优解从0实现线性回归代码是指定w为 [2, 3.4]T b为4.2 构造一个随机数据集通过梯度下降线性回归去用一条直线近似生

2022-03-29 10:00:55 2269