几度热忱-CSDN博客

原创【uv包管理工具】常用命令记录

uv 是新一代高效 Python 包管理工具，结合了 pip 和 pipenv 的优点。核心功能包括：uv init 初始化项目环境并生成 pyproject.toml；uv python 系列命令管理 Python 版本；uv sync 同步依赖；uv venv 快速创建虚拟环境。兼容 pip 语法且速度提升 10-100 倍，支持 requirements.txt 和 pyproject.toml，提供可靠的依赖解析。常用命令还有 uv pip install 安装包和 uv cache clean 清

2026-04-20 11:29:50 163

原创【wandb】wandb本地部署教程

本文介绍了wandb本地部署的详细步骤及常见问题解决方法。主要内容包括：1) 拉取wandb docker镜像；2) 创建容器时传入LICENSE_KEY等参数；3) 通过web UI创建用户并绑定本地账号；4) 配置代码连接本地wandb服务。针对常见错误如授权失败、挂载卷问题，提供了具体解决方案：初始化无挂载容器后拷贝数据目录，再重建挂载容器。文中还包含关键参数配置示例和问题排查参考链接，帮助用户顺利完成wandb本地化部署，解决网络同步问题。

2025-09-08 23:10:55 1882 1

原创【Ubuntu扩容】Ubuntu启动项丢失、增加硬盘相关操作记录贴

【Ubuntu扩容】Ubuntu引导丢失、增加硬盘相关操作记录贴情况简介我的主机中有两块硬盘，一块盘装着Windows，另一块盘装着Ubuntu，Ubuntu的盘将满，而Windows的盘不常用，但数据想要保留，因此取下Windows的盘，将新购入的盘装入机器，想要挂载至Ubuntu系统中。踩坑记录在我取下Windows的盘安装新盘后，开机后发现Ubuntu启动项丢失经过排查发现：双系统安装时，GRUB（Ubuntu 的启动管理器）默认安装在第一块硬盘的 EFI 分区

2025-09-04 20:02:08 1177

原创【Zotero】Zotero无法正常启动解决方案

Zotero无法启动问题评论区看到作者回答Profile directory location进入上述的路径Profile directory location我的路径为：C:\Users\用户名\AppData\Roaming\Zotero\Zotero\Profiles\k2yp2n1i.default确实找到了parent.lock文件删除该文件，仍无法启动找到官方的一个帖子：我的zotero无法打开Zotero not starting after update to 7.0.16/7.0.18

2025-07-06 10:13:52 2784

原创【mpi4py卡死】mpiexec运行命令出现没反应卡死等情况from mpi4py import MPI

【mpi4py卡死】运行命令出现没反应卡死等情况from mpi4py import MPImpiexecfrom mpi4py import MPI解决方法mpiexecmpiexec 是 MPI 程序的启动器，它用于启动多个并行进程，在多个 CPU 核甚至多台机器上同时运行一个程序，并让这些进程之间可以通信和协作MPI 全称是 Message Passing Interface，用于并行计算，而 mpiexec 是它的命令行入口。from mpi4py import MPI在命令行

2025-03-20 11:54:09 724

原创【screen、tmux】screen、tmux终端命令挂起工具使用方法简述

【screen、tmux】screen、tmux终端命令挂起工具使用方法简述screen、tmux简介screen使用方法安装基础操作启动新会话创建命名会话分离会话（后台运行）重新进入最近的会话重新进入指定的会话列出所有会话彻底关闭当前会话使用示例tmux使用方法安装基础操作创建命名会话分离会话（后台运行）重新进入到指定会话（-t 指定名称）列出所有会话关闭当前会话screen、tmux简介在使用 Linux 或类 Unix 系统时，screen 和 tmux 是

2025-03-15 15:16:56 1322

原创【spacedesk扩展屏幕】两台笔记本通过spacedesk扩展屏幕设置分辨率

【spacedesk扩展屏幕】两台笔记本通过spacedesk扩展屏幕设置分辨率前提分辨率设置前提请注意：需要扩展屏幕的笔记本安装spacedesk driver只提供屏幕的笔记本安装spacedesk viewer也就是spacedesk client分辨率设置spaceviewer一端：Setting–>Display–>打开Native resolution–>Select the custom resolution中选择想要设置的分辨率

2025-03-13 10:16:04 2073 2

原创【具身相关】legged_gym, isaacgym、rsl_rl关系梳理及相关笔记

【legged_gym】legged_gym, isaacgym代码逻辑梳理总体关系IsaacGymlegged_gymrsl_rl三者的关系legged_gym代码库介绍环境模块env

2025-03-12 23:43:43 7155 1

原创【isaacgym报错】安装isaacgym运行报错RuntimeError: Error building extension ‘gymtorch‘

【isaacgym报错】安装isaacgym运行报错RuntimeError: Error building extension 'gymtorch'环境配置报错场景报错信息解决方法

2025-03-12 18:24:59 2086

原创【强化学习基础算法】基础算法:贪婪算法策略迭代价值迭代 Sarsa Q-learning核心思想简介

【强化学习基础算法】基础算法:贪婪算法策略迭代价值迭代 Sarsa Q-learning核心思想简介贪婪算法ϵϵ-贪婪算法递减的ϵϵ-贪婪算法上置信界算法UCB汤普森采样法基于动态规划的强化学习算法策略迭代价值迭代时序差分算法Sarsa算法Q-learningN步sarsa算法参考文献

2025-03-02 13:37:52 1504

原创【github】Pull Requests(PR)操作流程介绍及clone报错解决方法Failed to connect to github.com port 443 after 21100 ms

【github】Pull Requests PR操作流程介绍及clone报错解决方法Failed to connect to github.com port 443 after 21100 msPull Requests操作简介Example什么是 Pull Request？Pull Request 的步骤vscode PR操作实例1.fork想要进行PR操作的项目2.将fork后的新项目clone 到本地3.新建分支4.切换到新建的分支中5.在新建的分支中进行修改并推送6. 在自己的

2025-02-13 18:41:01 1178

原创【强化学习】Stable-Baselines3学习笔记

这三个项目都是Stable Baselines3生态系统的一部分，它们共同提供了一个全面的工具集，用于强化学习的研究和开发。SB3提供了核心的强化学习算法实现，而RL Baselines3 Zoo提供了一个训练和评估这些算法的框架。SB3 Contrib则作为实验性功能的扩展库，SBX则探索了使用Jax来加速这些算法的可能性。

2024-12-23 16:52:20 8271

原创【Pycharm相关设置】新版Pycharm关闭主菜单，取消自动隐藏工具栏

【Pycharm相关设置】新版Pycharm关闭主菜单，取消自动隐藏工具栏Pycharm主菜单关闭主菜单Pycharm主菜单新版pycharm多了主菜单，会自动隐藏工具栏，强迫症犯了找了很久关闭的地方

2024-12-19 23:14:01 1271

原创【Nvidia Driver安装】Ubuntu下显卡驱动的安装及踩坑日记安装驱动后掉网卡、无网络内核升级等情况

【Nvidia Driver安装】Ubuntu下显卡驱动的安装及踩坑日记安装驱动后掉网卡、无网络内核升级等情况1.Ubuntu中安装显卡驱动的方法2.踩坑日记:安装显卡驱动后掉网卡无网络内核升级3.解决方法4.安装后出现开机黑屏、内核升级等问题的解决方案

2024-10-20 18:02:24 5084 1

原创【conda环境打包】ubuntu的conda环境打包导出方法 conda-pack

【conda环境打包】ubuntu的conda环境打包导出方法 conda-packubuntu下anaconda虚拟环境打包ubuntu20.04 conda pack 打包虚拟环境，直接将其用到其他终端使用conda-pack迁移环境

2024-10-20 17:31:47 1875

原创【Easy RL】Easy RL蘑菇书全书学习笔记

【Easy RL】Easy RL蘑菇书全书学习笔记第一章强化学习基础1.1 强化学习概述监督学习强化学习与监督学习的不同之处二者的区别总结强化学习的特征强化学习的优越性预演（rollout）和轨迹（trajectory）的概念端到端的概念深度强化学习（deep reinforcemet learning）sim2real1.2序列决策基本概念状态和观测的关系环境信息完全可观测-->马尔科夫决策过程环境信息部分可观测-->部分可观测马尔可夫决策过程

2024-10-07 22:01:20 2459

原创【word脚注】双栏设置word脚注，脚注仅位于左栏，右栏不留白

【word脚注】双栏设置word脚注，脚注仅位于左栏，右栏不留白。调整前：脚注位于左下角，但右栏与左栏内容对其，未填充右下角的空白区域

2024-10-02 12:24:05 19241 4

原创【win11安装appx】安装TranslucentTB所需依赖winui-x64.appx失败，错误消息: 错误 0x80070005: 从位置 winui-x64.appx 中打开程序包失败

【代码】【win11安装appx】应用安装失败，错误消息: 错误 0x80070005: 从位置 winui-x64.appx 中打开程序包失败。

2024-10-01 15:59:44 2572

原创【Ubuntu】Ubuntu双网卡配置实现内外网互不影响同时可用

【Ubuntu】Ubuntu双网卡配置实现内外网互不影响同时可用

2024-09-14 22:01:11 5685

原创【强化学习环境搭建】mujoco，mujoco_py，d4rl等强化学习相关资源安装及使用的参考资料链接持续更新ing

【强化学习环境搭建】mujoco，mujoco_py，d4rl等强化学习相关资源安装及使用的参考资料链接持续更新ing1.安装mujoco2.安装mujoco_py3.安装d4rl4.安装gym或gymnasium在此博客中记录一些配置强化学习环境时遇到的优质参考资料，持续更新ing~

2024-09-11 21:04:55 939

原创【Zotero插件】Zotero Tag为文献设置阅读状态 win11下相关设置

【Zotero插件设置】Zotero Tag为文献设置阅读状态 win11下相关设置1.安装Zotero Tag1.1安装1.2配置1.3 win11的相关设置1.3.1 字体安装参考教程2.支持排序的标注参考教程

2024-07-23 23:09:07 11570

原创【win11】Mouse without Borders安装问题&以管理员权限安装msi文件

【win11】Mouse without Borders安装问题&以管理员权限安装msi文件Mouse without Borders安装问题以管理员权限安装msi文件the installers has encountered an unexpected error installing this package. this may indicate a problem with this package. the error code is 2503

2024-06-27 20:18:14 3703

原创【Ubuntu双系统】两块硬盘分别安装系统，一块硬盘安装Ubuntu 一块安装Windows

【Ubuntu双系统】两块硬盘分别安装双系统，一块硬盘安装Ubuntu 一块安装Windows前言安装Ubuntu前置操作安装过程参考文献前言机器情况：两块1T的硬盘，其中一块已安装Windows 11现需在另一块硬盘上安装Ubuntu，该硬盘还未初始化Ubuntu安装参考教程来自：【ubuntu20.04】10分钟win10安装ubuntu20.04双系统（无需Bios设置）由于需要为两块硬盘分别安装系统，而该教程是在同一块硬盘上安装双系统，在中间步骤与该教程略有区别

2024-06-12 23:24:36 5799

原创【强化学习】gymnasium自定义环境并封装学习笔记

【强化学习】gymnasium自定义环境并封装学习笔记gym与gymnasium简介gymgymnasiumgymnasium的基本使用方法使用gymnasium封装自定义环境官方示例及代码编写环境文件__init__()方法reset()方法step()方法render()方法close()方法注册环境创建包 Package（最后一步）创建自定义环境示例

2024-06-12 16:39:33 7265 1

原创【强化学习】DPO（Direct Preference Optimization）算法学习笔记

【强化学习】DPO（Direct Preference Optimization）算法学习笔记RLHF与DPO的关系KL散度Bradley-Terry模型DPO算法流程

2024-05-30 20:14:27 16214

原创【RLHF个人笔记】RLHF:Reinforcement Learning from Human Feedback具体过程

【RLHF个人笔记】RLHF:Reinforcement Learning from Human Feedback具体过程RLHF训练的三个步骤步骤1：收集数据与有监督训练策略步骤2：收集数据训练奖励模型步骤3：结合奖励模型利用强化学习算法如PPO算法来优化策略参考内容

2024-05-29 11:03:14 3181

原创【强化学习】Q-learning，DQN，SARSA算法介绍

【强化学习】Q-learning，DQN，SARSA算法介绍强化学习算法分类基于价值的方法基于策略的方法Actor-Critic方法Q-learning算法DQN算法强化学习训练数据存在的问题经验回放机制备份网络机制Sarsa算法总结

2024-05-27 18:13:59 1750

原创【Ubuntu常用命令】终端个人常用命令总结

【Ubuntu常用命令】终端常用命令总结查看硬盘挂载情况查看内存占用情况移动或重命名文件和目录复制文件或目录

2024-05-27 10:21:47 1647

原创【强化学习】强化学习基础教程：基本概念、强化学习的定义，要素，方法分类以及 Rollout、episode回合、transition转移、trajectory轨迹的概念

【强化学习】强化学习基础教程：基本概念、强化学习的定义，要素，方法分类以及 Rollout、episode回合、transition转移、trajectory轨迹的概念1.基础概念1.1 强化学习的定义1.2 强化学习的基本要素2.强化学习分类2.1 根据agent学习方式分为基于策略的强化学习Policy based RL ，基于价值的强化学习Value based RL以及Actor-Critic方法2.2 根据理不理解所处的环境（agent有无学习环境的模型）分为model-based与

2024-05-27 10:11:45 12540

原创【动手学强化学习】第 7 章 DQN算法知识点总结

【动手学强化学习】第 7 章 DQN算法知识点总结本章知识点离散和连续的概念CartPole 环境DQN算法简介�Q网络的损失函数经验回放目标网络DQN 代码实践关于代码的思考及各变量的维度问题适用于以图像为输入的 Q网络

2024-05-24 19:02:36 1117

原创【动手学强化学习】第 6 章 Dyna-Q 算法知识点总结

【动手学强化学习】第 6 章 Dyna-Q 算法知识点总结本章知识点基于模型的强化学习与无模型的强化学习方法简介无模型的强化学习方法基于模型的强化学习方法强化学习算法的评价指标Dyna-Q算法Dyna-Q 算法的具体流程Dyna-Q 代码实践

2024-05-23 12:50:47 1055

原创【动手学强化学习】第 5 章时序差分算法知识点总结

【动手学强化学习】第 5 章时序差分算法知识点总结本章知识点：动态规划与时序差分（temporal difference，TD）的区别时序差分Sarsa算法多步Sarsa算法Q-learning算法在线策略学习和离线策略学习

2024-05-15 15:04:47 1249

原创【Docker】Ubuntu下Docker的基本使用方法与常用命令总结

【Docker】Ubuntu下Docker的基本使用方法与常用命令总结。镜像image与容器container的关系基本命令- 查看 Docker 版本- 拉取镜像- 查看系统中的镜像- 删除某个镜像- 列出当前 Docker 主机上的所有容器，包括正在运行的、暂停的、已停止的，以及未运行的容器- 列出当前 Docker 主机上的正在运行的容器- 进入正在运行的容器- 退出容器- 删除容器- 使用 docker start 命令后跟容器 ID 或名称来启动容器- 停止正在运行的容器

2024-05-12 12:28:42 3205

原创【深度学习】wandb模型训练可视化工具使用方法

Wandb（Weights & Biases）是一款专为机器学习和深度学习设计的可视化工具，旨在帮助开发者更高效地跟踪、可视化和共享实验结果提供在线平台，可以轻松记录实验的超参数、输出指标以及模型的变化，并通过直观的仪表盘展示这些信息与tensorboard类似，均是机器学习可视化分析工具wandb相较于Tensorboard的优势：1.wandb的日志文件上传云端存储，可永久保存，tensorboard存储在本地2.wandb存储代码，数据集，模型，

2024-04-17 10:10:00 10961 3

原创【深度学习】执行wandb sync同步命令报错wandb: Network error (SSLError), entering retry loop

【代码】【深度学习】执行wandb sync同步命令报错wandb: Network error (SSLError), entering retry loop。

2024-04-16 20:11:19 3304 4

原创【动手学强化学习】第四章动态规划算法知识点总结

【动手学强化学习】第四章动态规划算法知识点总结动态规划简介基于动态规划的强化学习算法悬崖漫步环境策略迭代算法策略评估：根据ππ计算VπVπ 策略提升：根据VπVπ优化ππ 策略提升定理的证明策略迭代价值迭代算法收敛性证明策略迭代价值迭代总结

2024-04-13 23:19:33 1531 1

原创【动手学强化学习】第三章马尔可夫决策过程知识点总结

【动手学强化学习】第三章马尔可夫决策过程知识点总结本章知识点：马尔可夫性质马尔可夫过程(也称为马尔可夫链）马尔可夫奖励过程马尔可夫决策过程策略马尔可夫决策过程的状态价值函数马尔可夫决策过程的动作价值函数状态价值函数与动作价值函数的关系贝尔曼期望方程MDP马尔可夫决策过程转换为MRP马尔可夫奖励过程蒙特卡洛方法占用度量最优策略贝尔曼最优方程（Bellman optimality equation）

2024-04-08 12:09:46 1691

原创【深度学习环境配置】一文弄懂cuda，cudnn，NVIDIA Driver version，cudatoolkit的关系

查看自身显卡的算力，在此网站中搜索显卡型号，可以看到我显卡对应的算力是7.5该网站的后面有CUDA版本和算力的对应关系，查看显卡算力支持的CUDA版本

2024-04-06 19:32:29 3788

原创【动手学强化学习】第二章多臂老虎机问题知识点总结

【动手学强化学习】第二章多臂老虎机问题本章知识点：探索与利用的含义、多臂老虎机问题、累积懊悔的定义、增量式更新期望奖励、经典探索策略（ϵ-贪婪算法、上置信界UCB算法、汤普森采样算法）

2024-04-06 11:41:30 3529

原创【动手学强化学习】第一章初探强化学习知识点总结

动手学强化学习第一章主要的知识点：强化学习的定义、要素、环境、目标、预测与决策的区别、有监督学习与强化学习的区别

2024-04-01 23:16:44 1350

篮球计分器含C语言程序+仿真图+开发资料-计分-计时蜂鸣-24s进攻倒计时使用矩阵键盘+LCD液晶显示屏+蜂鸣器适用于普中单片机

空空如也