自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(95)
  • 资源 (1)
  • 收藏
  • 关注

原创 【win11】Mouse without Borders安装问题&以管理员权限安装msi文件

【win11】Mouse without Borders安装问题&以管理员权限安装msi文件Mouse without Borders安装问题以管理员权限安装msi文件the installers has encountered an unexpected error installing this package. this may indicate a problem with this package. the error code is 2503

2024-06-27 20:18:14 425

原创 【Ubuntu双系统】两块硬盘分别安装系统,一块硬盘安装Ubuntu 一块安装Windows

【Ubuntu双系统】两块硬盘分别安装双系统,一块硬盘安装Ubuntu 一块安装Windows前言安装Ubuntu前置操作安装过程参考文献前言机器情况:两块1T的硬盘,其中一块已安装Windows 11现需在另一块硬盘上安装Ubuntu,该硬盘还未初始化Ubuntu安装参考教程来自:【ubuntu20.04】10分钟win10安装ubuntu20.04双系统(无需Bios设置)由于需要为两块硬盘分别安装系统,而该教程是在同一块硬盘上安装双系统,在中间步骤与该教程略有区别

2024-06-12 23:24:36 853

原创 【强化学习】gymnasium自定义环境并封装学习笔记

【强化学习】gymnasium自定义环境并封装学习笔记gym与gymnasium简介gymgymnasiumgymnasium的基本使用方法使用gymnasium封装自定义环境官方示例及代码编写环境文件__init__()方法reset()方法step()方法render()方法close()方法注册环境创建包 Package(最后一步)创建自定义环境示例

2024-06-12 16:39:33 1670

原创 【强化学习】DPO(Direct Preference Optimization)算法学习笔记

【强化学习】DPO(Direct Preference Optimization)算法学习笔记RLHF与DPO的关系KL散度Bradley-Terry模型DPO算法流程

2024-05-30 20:14:27 2090

原创 【RLHF个人笔记】RLHF:Reinforcement Learning from Human Feedback具体过程

【RLHF个人笔记】RLHF:Reinforcement Learning from Human Feedback具体过程RLHF训练的三个步骤步骤1:收集数据与有监督训练策略步骤2:收集数据训练奖励模型步骤3:结合奖励模型利用强化学习算法如PPO算法来优化策略参考内容

2024-05-29 11:03:14 1030

原创 【强化学习】Q-learning,DQN,SARSA算法介绍

【强化学习】Q-learning,DQN,SARSA算法介绍强化学习算法分类基于价值的方法基于策略的方法Actor-Critic方法Q-learning算法DQN算法强化学习训练数据存在的问题经验回放机制备份网络机制Sarsa算法总结

2024-05-27 18:13:59 872

原创 【Ubuntu常用命令】终端个人常用命令总结

【Ubuntu常用命令】终端常用命令总结查看硬盘挂载情况查看内存占用情况移动或重命名文件和目录复制文件或目录

2024-05-27 10:21:47 549

原创 【强化学习】强化学习基础教程:基本概念、强化学习的定义,要素,方法分类 以及 Rollout、episode回合、transition转移、trajectory轨迹的概念

【强化学习】强化学习基础教程:基本概念、强化学习的定义,要素,方法分类 以及 Rollout、episode回合、transition转移、trajectory轨迹的概念1.基础概念1.1 强化学习的定义1.2 强化学习的基本要素2.强化学习分类2.1 根据agent学习方式分为基于策略的强化学习Policy based RL ,基于价值的强化学习Value based RL以及Actor-Critic方法2.2 根据理不理解所处的环境(agent有无学习环境的模型)分为model-based与

2024-05-27 10:11:45 2215

原创 【动手学强化学习】第 7 章 DQN算法知识点总结

【动手学强化学习】第 7 章 DQN算法知识点总结本章知识点离散和连续的概念CartPole 环境DQN算法简介�Q网络的损失函数经验回放目标网络DQN 代码实践关于代码的思考及各变量的维度问题适用于以图像为输入的 Q网络

2024-05-24 19:02:36 624

原创 【动手学强化学习】第 6 章 Dyna-Q 算法知识点总结

【动手学强化学习】第 6 章 Dyna-Q 算法知识点总结本章知识点基于模型的强化学习与无模型的强化学习方法简介无模型的强化学习方法基于模型的强化学习方法强化学习算法的评价指标Dyna-Q算法Dyna-Q 算法的具体流程Dyna-Q 代码实践

2024-05-23 12:50:47 746

原创 【动手学强化学习】第 5 章 时序差分算法知识点总结

【动手学强化学习】第 5 章 时序差分算法知识点总结本章知识点:动态规划与时序差分(temporal difference,TD)的区别时序差分Sarsa算法多步Sarsa算法Q-learning算法在线策略学习和离线策略学习

2024-05-15 15:04:47 898

原创 【Docker】Ubuntu下Docker的基本使用方法与常用命令总结

【Docker】Ubuntu下Docker的基本使用方法与常用命令总结。镜像image与容器container的关系基本命令- 查看 Docker 版本- 拉取镜像- 查看系统中的镜像- 删除某个镜像- 列出当前 Docker 主机上的所有容器,包括正在运行的、暂停的、已停止的,以及未运行的容器- 列出当前 Docker 主机上的正在运行的容器- 进入正在运行的容器- 退出容器- 删除容器- 使用 docker start 命令后跟容器 ID 或名称来启动容器- 停止正在运行的容器

2024-05-12 12:28:42 1044

原创 【深度学习】wandb模型训练可视化工具使用方法

Wandb(Weights & Biases)是一款专为机器学习和深度学习设计的可视化工具,旨在帮助开发者更高效地跟踪、可视化和共享实验结果提供在线平台,可以轻松记录实验的超参数、输出指标以及模型的变化,并通过直观的仪表盘展示这些信息与tensorboard类似,均是机器学习可视化分析工具wandb相较于Tensorboard的优势:1.wandb的日志文件上传云端存储,可永久保存,tensorboard存储在本地2.wandb存储代码,数据集,模型,

2024-04-17 10:10:00 1955

原创 【深度学习】执行wandb sync同步命令报错wandb: Network error (SSLError), entering retry loop

【代码】【深度学习】执行wandb sync同步命令报错wandb: Network error (SSLError), entering retry loop。

2024-04-16 20:11:19 788 3

原创 【动手学强化学习】第四章 动态规划算法知识点总结

【动手学强化学习】第四章 动态规划算法知识点总结 动态规划简介 基于动态规划的强化学习算法 悬崖漫步环境 策略迭代算法 策略评估:根据ππ计算VπVπ 策略提升:根据VπVπ优化ππ 策略提升定理的证明 策略迭代 价值迭代算法 收敛性证明 策略迭代 价值迭代 总结

2024-04-13 23:19:33 1048

原创 【动手学强化学习】第三章 马尔可夫决策过程 知识点总结

【动手学强化学习】第三章 马尔可夫决策过程 知识点总结本章知识点:马尔可夫性质马尔可夫过程(也称为马尔可夫链)马尔可夫奖励过程马尔可夫决策过程策略马尔可夫决策过程的状态价值函数马尔可夫决策过程的动作价值函数状态价值函数与动作价值函数的关系贝尔曼期望方程MDP马尔可夫决策过程转换为MRP马尔可夫奖励过程蒙特卡洛方法占用度量最优策略贝尔曼最优方程(Bellman optimality equation)

2024-04-08 12:09:46 672

原创 【深度学习环境配置】一文弄懂cuda,cudnn,NVIDIA Driver version,cudatoolkit的关系

查看自身显卡的算力,在此网站中搜索显卡型号,可以看到我显卡对应的算力是7.5该网站的后面有CUDA版本和算力的对应关系,查看显卡算力支持的CUDA版本

2024-04-06 19:32:29 1736

原创 【动手学强化学习】第二章 多臂老虎机问题 知识点总结

【动手学强化学习】第二章 多臂老虎机问题本章知识点:探索与利用的含义、多臂老虎机问题、累积懊悔的定义、增量式更新期望奖励、经典探索策略(ϵ-贪婪算法、上置信界UCB算法、汤普森采样算法)

2024-04-06 11:41:30 1100

原创 【动手学强化学习】第一章 初探强化学习知识点总结

动手学强化学习 第一章主要的知识点:强化学习的定义、要素、环境、目标、预测与决策的区别、有监督学习与强化学习的区别

2024-04-01 23:16:44 923

原创 【Pytorch入门】小土堆PyTorch入门教程完整学习笔记(详细笔记并附练习代码 ipynb文件)

【Pytorch入门】小土堆PyTorch入门教程完整学习笔记(详细笔记 文末附练习代码 ipynb文件)

2024-03-28 15:27:17 3795 9

原创 【监控GPU】监控NVIDIA GPU显卡占用状态的常用命令

每隔X秒执行一次 nvidia-smi 命令,并持续显示 GPU 的使用情况。这样可以更频繁地更新 GPU 的状态信息,提供更实时的监控数据。nvitop 是一个基于 NVIDIA GPU 的实时性能监控工具,类似于 Linux 系统上的 top 命令。windows下可使用以下命令,可达到类似效果,每秒更新一次信息,但每次都会打印一遍信息 体验不是很好。nvitop能够以可视化的方式展示GPU的实时数据,对于监控 GPU 的性能和状态非常有用。每隔 0.5 秒执行一次nvidia-smi命令。

2024-03-23 20:11:54 6077

原创 【强化学习公式推导】状态价值函数与动作价值函数贝尔曼期望方程,贝尔曼最优方程推导过程

1.回报2.当前时刻的回报与下一时刻回报的关系3.状态价值函数4.动作价值函数5.状态价值函数与动作状态价值函数的关系6.贝尔曼期望方程7.状态价值函数的贝尔曼期望方程8.动作价值函数的贝尔曼期望方程9.贝尔曼期望方程的另一种理解方式,结合下图理解

2024-03-21 15:53:14 368

原创 【强化学习】安装gym==0.18.3报错的解决方法

安装gym==0.18.3报错的解决方法Collecting gym==0.18.3 Using cached gym-0.18.3.tar.gz (1.6 MB) Preparing metadata (setup.py) ... error error: subprocess-exited-with-error × python setup.py egg_info did not run successfully. │ exit code: 1 ╰─> [1 lines

2024-03-18 10:37:52 1515 2

原创 【Anaconda】换源常用命令

虚拟环境换源常见命令

2024-03-15 22:11:04 705

原创 【Anaconda报错】DEBUG:urllib3.connectionpool:Starting new HTTPS connection (1): repo.anaconda.com:443

【Anaconda报错】DEBUG:urllib3.connectionpool:Starting new HTTPS connection (1): repo.anaconda.com:443 Collecting package metadata (current_repodata.json): - DEBUG:urllib3.connectionpool:Starting new HTTPS connection (1): conda.anaconda.org:443DEBUG:urllib3.co

2024-03-15 21:16:35 1544

原创 【Python】清理conda缓存的常用命令

清理conda缓存的常用命令

2024-03-15 20:38:15 2475

原创 【Python】简单方法 亲测有效 jupyter notebook安装jupyter_contrib_nbextension扩展后不显示 Nbextensions标签

jupyter notebook安装jupyter_contrib_nbextension扩展后不显示 Nbextensions标签。

2024-03-09 17:51:59 504

原创 【Reinforcement Learning】Ubuntu中mujoco210 mujoco_py D4RL安装及错误解决

【Reinforcement Learning】Ubuntu中mujoco210 mujoco_py D4RL安装及错误解决本文根据一篇知乎文章进行配置,记录在配置过程中遇到的一些问题,原文作者的教程很详细

2023-10-20 21:14:35 1879

原创 云服务器及域名到期后,公安联网注销指南

云服务器及域名到期后,公安联网注销指南

2022-12-06 12:56:51 1183 2

原创 【Python】动手学Python(附示例代码)快速入门

【Python】动手学Python(附示例代码)快速入门,从基础知识,数据类型,运算符,条件控制,循环语句,函数和类7个方面介绍Python,同时附送示例代码,助力快速入门

2022-11-03 18:00:00 823

原创 【Python】Jupyter Notebook的安装与基本使用方法

Jupyter Notebook是基于网页的用于交互计算的应用程序。其可被应用于开发、文档编写、运行代码和展示结果。优势在于可以在网页中按单元格分块编写Python代码和 Markdown文字。

2022-10-21 14:08:24 3579 1

原创 【Python】安装autopep8包,并在PyCharm中进行配置,以PEP8规范排版代码

安装autopep8包,并在PyCharm中进行配置,以PEP8规范排版代码。

2022-10-19 22:34:15 823

原创 配置深度学习环境:在Windows(Win10)中安装CUDA,CUDNN,Pytorch GPU版

配置深度学习环境详细教程:在Windows(Win10)中安装CUDA,CUDNN,Pytorch GPU版

2022-10-18 19:33:41 6119 7

原创 NVIDIA控制面板打开报错,提示nvcplui.exe应用程序错误并显示传递给系统调用的数据区域太小

NVIDIA控制面板打开报错,提示nvcplui.exe应用程序错误并显示传递给系统调用的数据区域太小

2022-10-18 15:46:04 6278 2

原创 算法基础课03----双指针算法,位运算,离散化,区间合并例题及题解

算法基础课03----双指针算法,位运算,离散化,区间合并例题及题解

2022-08-15 21:17:46 126

原创 算法基础课02----高精度加减乘除,前缀和,差分例题及题解

高精度加减乘除,一维前缀和,二维前缀和,一维差分,二维差分例题及题解

2022-08-09 15:49:24 123

原创 算法基础课01----快速排序,归并排序,二分查找模板题目

快速排序,归并排序,二分查找基础模板题目

2022-08-05 12:55:27 159

原创 Win10/Win11内存优化

最近笔记本总是内存占用飙升至90%多,而我本身并没有开多少应用,不知道问题出在了哪里,经过我搜寻发现了windows自带的一款内容优化软件,使用后确实有一定效果,适用于win10,win11其他版本不确定有没有在windows的搜索框搜索 内存诊断点击打开,选择重新启动并检查问题等待检查完成即可,过程略长,请耐心等待,确实对于内存高占用有一定的改善,希望可以帮助到大家~...

2022-04-06 14:18:22 1884

原创 微信小程序web-view不支持打开非业务域名https //XXXX 请重新配置

微信小程序提供web-view,可以在小程序中加载网页我在微信公众平台中的开发管理—》开发设置中对于服务器域名中的request合法域名进行了正确设置,但是在微信开发者工具中仍然无法跳转网页,显示不支持打开非业务域名https //XXXX 请重新配置

2022-03-31 22:03:53 10192

原创 云服务器配置SSL证书实现https访问

云服务器配置SSL证书实现https访问

2022-03-31 15:28:32 1888

篮球计分器含C语言程序+仿真图+开发资料-计分-计时蜂鸣-24s进攻倒计时使用矩阵键盘+LCD液晶显示屏+蜂鸣器适用于普中单片机

使用矩阵键盘,LCD1602液晶显示屏,蜂鸣器实现的篮球计分器,可实现两队分数显示 及分数+1 +2 +3,胜局数比分显示及增减,24s进攻倒计时,比赛时间倒计时,时间到蜂鸣器响1s,含C语言程序+仿真图+开发资料。

2022-01-07

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除