自定义博客皮肤VIP专享

*博客头图：

点击选择上传的图片

格式为PNG、JPG，宽度*高度大于1920*100像素，不超过2MB，主视觉建议放在右侧，请参照线上博客头图

请上传大于1920*100像素的图片！

博客底图：

点击选择上传的图片

图片格式为PNG、JPG，不超过1MB，可上下左右平铺至整个背景

栏目图：

点击选择上传的图片

图片格式为PNG、JPG，图片宽度*高度为300*38像素，不超过0.5MB

主标题颜色：

RGB颜色，例如：#AFAFAF

Hover：

RGB颜色，例如：#AFAFAF

副标题颜色：

RGB颜色，例如：#AFAFAF

预览取消提交

自定义博客皮肤

-+

上一步保存

BevnWu的CSDN小站

共同学习！

原创【GNN】百度GNN7日打卡营心得

本次打卡营收获许多，了解到图更深层次的应用。许多算法的机理是简单的，却能有巨大的应用。第一次课是对图论的复习以及图学习的一个初步介绍，我的学习笔记可见：https://aistudio.baidu.com/aistudio/projectdetail/1259792第二次课是对图游走类模型中的DeepWalk、node2vec、methpath2vec进行介绍。因为如果一幅图很大(节点、边数太多)，则在训练时若全部进行训练代价巨大，所以需要进行采样。我的学习笔记可见：https://aistudio

2020-11-28 14:24:49 144

原创【RL】8.Imitation Learning

RL-Ch8-Imitation Learning要使Agent有人的智慧有两种手段：强化学习(Reinforcement Learning)模仿学习(Imitation Learning)模仿学习，又称Learning by demonstration/apprenticeship(学徒) learning。为何会出现模仿学习呢？与环境互动，却难以明确reward的数值一些任务难以定义reward人工设定的reward可能导致agent一些不可控的行为(撞死人)模

2020-11-05 09:23:12 335 1

原创【RL】7.Reward Issue

RL-Ch7-Reward Issue因为采样的不充分性和种种原因(环境v很少给reward)，我们得到环境的回馈信息是很少的，这就是奖励稀疏(sparse reward)的问题。Reward Shaping所以第一种方法是我们可以人为构造/修正奖励。某些情形如果让环境直接给出奖励，难以让好的行为得到学习。例如小学生在出去玩和学习这一当前时间步的选择，很难考虑到未来的月考成绩好坏这一远景的奖励。所以需要人为的重新构造一下奖励，例如加个棒棒糖鼓励学习等。某些情形环境极少给出奖励。例如在枪战游戏中，

2020-11-05 09:20:49 270

原创【RL】6.Actor-Critic

RL-Ch6-Actor-CriticA2C：Advantage Actor-CriticA3C：Asynchronous Actor-CriticAdvantage Function我们在第四章Policy Gradient中从原始的梯度计算公式，引入baseline和时间步衰减的技巧后，得到Advantage Function，形式如下：Aθ(st,at)=∑t′=tTnγt′−trt′n−bA^{\theta}(s_t,a_t)=\sum_{t'=t}^{T_n}\gamma^{t'-t

2020-11-05 09:19:16 258

原创【RL】5.Q-Learning

title: RL-Ch5-Q-Learningdate: 2020-10-25 10:36:24comments: false #是否可评论toc: true #是否显示文章目录categories: “computer” #分类tags: #标签- Reinforcement LearningRL-Ch5-Q-Learning本文提到的actor等效于前几章笔记中的agent+policy。Critic Vπ(s)V^\pi(s)Vπ(s)不直接采取行动对actor进.

2020-11-05 09:17:07 850

原创【RL】4.Policy Gradient

RL-Ch4-Policy Gradient策略梯度(Policy Gradient)强化学习的例子SceneAgentEnvReward FunctionVideo游戏手柄主机杀1怪得20分GoAlphaGo李世石the Rule of Go在上述例子中，策略(policy)π\piπ的具体表现形式可认为是神经网络从输入层到输出层之间的参数矩阵θ\thetaθ。下图为一个加入了action的马尔可夫链，记Trajectory τ={s1,a1,.

2020-10-29 20:53:37 184

原创【RL】3.基于表格方法求解RL

RL-Ch3-基于表格方法求解RL本文不太完善，待寻到时间再细细修改。前情回顾MDP为(S,A,P,R,γ\gammaγ)五元组，在上一状态sts_tst采取动作ata_tat，会以一定的概率分布p进入下一状态st+1s_{t+1}st+1，同时产生一定的收益rtr_trt。图1 MDP树状图与环境交互过程会学习到P(transimision Probability matrix)函数p(st+1,rt∣st,at)p(s_{t+1},r_t|s_t,a_t)p(st+1,rt

2020-10-23 17:13:02 200

原创【RL】2.马尔可夫决策过程

RL-Ch2-马尔可夫决策过程前情回顾RL Agent的核心元素为model，value，policy。课程大纲Markov Chain–>Markov Reward Process–>Markov Decision ProcessPolicy evaluation in MDPPolicy iteration and value iteration引入上章图1的RL过程可转化为MDP，但是MDP下的环境是完全可观测的，很多时候环境不完全可观测时也可通过一些方法转化为MDP。

2020-10-23 17:09:37 323

原创【RL】1.概论与基础

因为个人原因，没能抽出时间将笔记电子化。计划过几日实现电子化。课程内容问题强化学习的基本结构是什么？答：agent与env交互，env生成state，agent观测state为observation，决定action。见课程内容的图1。强化学习相对于监督学习为什么训练会更加困难？（强化学习的特征）答：[^1]强化学习处理的多是序列数据，其很难像监督学习的样本一样满足IID（独立同分布）条件。强化学习有奖励的延迟（Delay Reward），即在Agent的act.

2020-10-20 22:01:12 361 1

原创 pyqt5安装教程（linux版本）

创建虚拟环境激活虚拟环境安装pyqt5运行代码可以看到新的窗口

2020-09-10 14:38:44 3060 2

原创 pytorch的ubuntu18.04安装教程

1、在安装CUDA之前确保环境满足安装条件查看驱动信息查看显卡型号2、进入【NVIDIA官网](https://developer.nvidia.com/cuda-toolkit-archive?spm=a2c4e.10696291.0.0.7b5819a4F6rq7s)下载适合自己机器的CUDA版本，官网下载，如图所示，按照 Installation Instructions 来进行，...

2020-09-10 14:37:35 378

原创 EfficientDet pytorch版本遇到问题

解决参照：

2020-09-10 14:33:21 124

原创【python】conda新建虚拟环境

先卸载之前的环境，可参考新建新的python虚拟环境若是下载过慢，可以试着更换conda源库安装完成输入

2020-04-10 11:23:33 63

转载在 Linux 中截图的默认方式

在ubuntu中你想要截取整个屏幕？屏幕中的某个区域？某个特定的窗口？如果只需要获取一张屏幕截图，不对其进行编辑的话，那么键盘的默认快捷键就可以满足要求了。而且不仅仅是 Ubuntu ，绝大部分的 Linux 发行版和桌面环境都支持以下这些快捷键：PrtSc – 获取整个屏幕的截图并保存到 Pictures 目录。Shift + PrtSc – 获取屏幕的某个区域截图并保存到 Pictur...

2020-04-10 11:15:31 225

原创动手学DL|Task06：批量归一化和残差网络；凸优化；梯度下降

批量归一化和残差网络凸优化梯度下降

2020-02-25 17:30:28 117

原创动手学DL|Task10：GAN；DCGAN

GANDCGAN

2020-02-25 17:21:54 160

原创动手学DL|Task09：目标检测基础；图像风格迁移；图像分类案例

目标检测基础习题图像风格迁移用一个例子来阐述基于卷积神经网络的样式迁移方法。首先，我们初始化合成图像，例如将其初始化成内容图像。该合成图像是样式迁移过程中唯一需要更新的变量，即样式迁移所需迭代的模型参数。然后，我们选择一个预训练的卷积神经网络来抽取图像的特征，其中的模型参数在训练中无须更新。深度卷积神经网络凭借多个层逐级抽取图像的特征。我们可以选择其中某些层的输出作为内容特征或样式特征。...

2020-02-25 17:17:08 147

原创动手学DL|Task4 机器翻译及其技术+注意力机制与Seq2seq模型+Transformer

机器翻译及其技术学习笔记习题整理注意力机制与Seq2seq模型学习笔记习题整理Transformer学习笔记习题整理

2020-02-19 14:45:38 359

原创动手学DL|Task5 LeNet+卷积神经网络进阶+循环神经网络进阶

LeNet笔记使用全连接层的局限性：图像在同一列邻近的像素在这个向量中可能相距较远。它们构成的模式可能难以被模型识别。对于大尺寸的输入图像，使用全连接层容易导致模型过大。使用卷积层的优势：卷积层保留输入形状。卷积层通过滑动窗口将同一卷积核与不同位置的输入重复计算，从而避免参数尺寸过大。LeNet-5是Yann LeCun等人在多次研究后提出的最终卷积神经网络结构，一般LeN...

2020-02-19 14:11:51 274

原创动手学DL|Task3 过拟合、欠拟合+梯度消失、梯度爆炸+卷积神经网络基础

过拟合、欠拟合及其解决方案学习笔记习题整理错题原因：没有理解欠拟合和过拟合的深刻含义。过拟合是指训练误差达到一个较低的水平，而泛化误差依然较大。欠拟合是指训练误差和泛化误差都不能达到一个较低的水平。发生欠拟合的时候在训练集上训练误差不能达到一个比较低的水平，所以过拟合和欠拟合不可能同时发生。L2范数正则化是用来应对过拟合的。梯度消失、梯度爆炸学习笔记习题整理...

2020-02-16 20:56:13 555

原创 visio作图|入门教程+mathtype资源

Visio是非数据图（如流程图、概念图）的论文作图首选，搭配Mathtype食用更佳。Mathtype是非latex即word爱好者数学公式输入和排版的杀手锏，根据教程下载后可内嵌在office全家桶里使用哦。下载软件根据教程进行Mathtype的下载。根据教程进行Visio安装下载。Visio使用...

2020-02-16 16:32:45 1057

原创动手学DL|Task2 文本预处理+语言模型+循环神经网络

文本预处理习题语言模型语言模型的参数就是词的概率以及给定前几个词情况下的条件概率。随机采样和相邻采样。上图来源@小罗同学习题循环神经网络习题...

2020-02-14 18:28:44 140

原创动手学DL|Task1 线性回归+Softmax+多层感知机

线性回归主要内容是用最小二乘法作为损失函数，最小化损失达到拟合最优。习题Softmax与分类模型把输出分布在和为1的序列中，其概率最大为输出标签。习题多层感知机习题...

2020-02-14 17:11:26 102

原创 Python再熟识|基本数据结构+类

前言我是在2018年上半年接触的python，是和c语言一起安排在大一下上的编程课，经常迷惑，但后来学过之后，闲置的比较久，后续又接触matlab，javascript，c++等语言。大三上上matlab和c++的课，感觉对c又有了更深的理解。c++是最好的语言。闲话放一边。本次因为要入门一个深度学习的项目，看了一些网课发现一些python基础落后较多，所以补充一下。first editio...

2020-02-13 14:24:34 116

原创 Md学习文档

创建于2020/1/191st修改于2020/2/10Markdown 标题1.使用=和-标记1-2级标题我展示的是一级标题我展示的是二级标题2.使用#标记1-6级标题一级标题二级标题三级标题四级标题五级标题六级标题Markdown 段落没有特殊格式，换行需要两个空格加回车Enter，just say “hello，world！”段落后的一个空行表示重新开始一个段...

2020-02-10 10:22:52 283

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示

确定要删除当前文章？

取消删除