自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(15)
  • 收藏
  • 关注

原创 [python学习记录]不同文件夹下两张同名图片拼接成一张图片

pix2pixmask图和生成图片的可视化对比两个不同文件夹下同名图片拼接

2022-06-08 21:29:40 812 1

原创 强化学习基础07——deep Q-network(DQN)

其实就是用个神经网络近似Q*函数,游戏中的agent的目标是打赢游戏。关于Q*函数请参考强化学习基础概念03——价值函数_王三省的读研日记的博客-CSDN博客中的问题4(optimal action value function最优动作价值函数Q*)如果用强化学习的语言来说,目标就是在游戏结束的时候,获得的奖励总和越大越好。既然目标已经定下来了,agent就要努力实现目标。假设Q*函数是知道的,那么agent该怎么做决策呢?什么才是最优的动作呢?Q*函数可以给所有的动作打分,每个动作a都有个

2022-01-30 21:09:34 8201

原创 深度学习算法——丢弃法

动机正则可以使得权重不会太大,可以避免过拟合的方法。丢弃法不是在输入的时候加入噪音,而是在层与层之间加入噪音。丢弃法实质上是一个正则的过程。无偏差的加入噪音要求:虽然加入了噪音,但是不能改变期望值。(平均值不收到影响。)给定概率p,在p的概率下,把原始数据变成0,剩下的概率 除以1-p,值变大(0<p<1)。使得最终期望值保持不变。 证明过程:所得结果还是使用丢弃法:通常将丢弃法作用在隐藏全连接层的输出上简单理解:第一个隐含层 输...

2022-01-28 20:25:07 751

原创 强化学习基础06——小结

目录1.术语总结2.强化学习的目的3.强化学习具体是要学什么?1.术语总结agent就是会做动作这样一个东西,比如超级玛丽中的Mario就是agent。agent可以跟环境Environment交互,超级玛丽中的环境就是游戏本身,Agent做出动作action,环境就会更新状态State,并且给出一个奖励reward。可以认为State就是当前屏幕上显示的画面,游戏玩家会根据这个画面进行操作,如果状态、动作、奖励等变量被观测到,就用小写字母表示,如果没观测到他们就是.

2022-01-28 20:24:19 1936

原创 强化学习基础05——gym

OpenAI gymOpenAI gym是强化学习最常用的标准库,如果研究强化学习,肯定会用到gym。gym有几大类控制问题,第一种是经典控制问题,比如cart pole和pendulum。Cart pole要求给小车一个左右的力,移动小车,让他们的杆子恰好能竖起来,pendulum要求给钟摆一个力,让钟摆也恰好能竖起来。第二种是你最常见的Atari games,小时候在小霸王游戏机上玩的。pong里面的agent是这个乒乓球拍,你让球拍上下运动目标是接住对手的球,并且让对手..

2022-01-28 20:24:13 5311

原创 强化学习基础04——让强化学习自动游戏的原理理解

目录如何让强化学习自动训练超级玛丽?一种办法是学习一个policy函数π另一种办法是学习optimal action value function,最优动作价值函数Q*。概括一下继续拿超级玛丽举例子如何让强化学习自动训练超级玛丽?假设我们训练AI玩玩超级玛丽游戏。我们的目标是操作Mario多吃金币,避开敌人往前走,打赢每一关游戏。我们想写个程序让AI来控制agent,我们该怎么做呢?一种办法是学习一个policy函数π在强化学习里面叫做policy .

2022-01-28 20:24:06 1510

原创 强化学习基础概念03——价值函数

目录value function 价值函数action value function,动作价值函数Qπ。问题一:问题二:问题三:问题四:(optimal action value function最优动作价值函数Q*)问题五:Statevaluefunction状态价值函数,Vπ。问题六:问题七:value function 价值函数上文定义了discounted return折扣回报。未来的奖励要打个折扣,越久远的未来折扣越大,权重越低。其中Ut是...

2022-01-28 20:24:00 7490

原创 强化学习基础概念02——基本术语一

目录术语State 状态 :Action 动作: Agent 代理:Policy策略:Reward奖励:Return折扣回报:returnUt的随机性术语State 状态 :当前所处于的状态。Action 动作: 上下左右。Agent 代理:汽车 ,机器人 等Policy策略:π 根据State观测出的状态做出policy决策,控制agent运动。Policy策略最好是概率密度函数。取值需要随机,为了防止别...

2022-01-28 20:23:55 1626

原创 强化学习基础概念01——概率论知识

概率论随机变量是一个未知的变量,结果取决于随机事件的结果。X表示随机值 x表示观测值概率密度函数把所有取值都算上,概率求和等于1期望:连续离散随机抽样:...

2022-01-28 20:23:37 478

原创 softmax回归-原理理解

softmax回归

2022-01-23 23:18:50 381

原创 权重衰退问题

权重衰退 是最常用的处理过拟合的一种方法如何控制模型的容量,1. 参数个数,2. 参数值的范围。权重衰退就是通过控制值的范围来控制模型容量。硬性限制:优化最小化的损失函数。L(w,b) L指的是损失函数, w(权重)和b(偏移) 分别代表参数同时加入一个限制 ,subject to 使得w每个项的平方和小于等于一个值。可以保证w的每个值不会太大。使用均方范数作为柔性限制。柔性限制:通过将损失函数里的限制条件去掉,但是增加了一个阀当 =0 的时候相当于上面的

2022-01-23 23:18:33 2287 1

原创 模型选择+过拟合和欠拟合

目录模型选择训练误差和泛化误差k-折交叉验证总结:过拟合和欠拟合模型容量:​模型容量的影响​估计模型容量VC维总结:模型选择训练误差和泛化误差简单理解:验证数据集没有参加训练,所以可以在一定程度上反映超参数的好坏。训练误差 --->测试数据集泛化误差 --->验证数据集不要把测试集和验证集混用。k-折交叉验证简单理解:把一个数据集分成k块,第i块作为验证数据集,其余作为训练数据集。重复k次,...

2022-01-23 20:00:00 488

原创 多层感知机

目录概念单隐藏层为什么需要非线性激活函数?Sigmoid激活函数Tanh激活函数ReLU 激活函数​多类问题多隐藏层总结概念感知机不能解决上文中提到的XOR问题,所以提出了多层感知机的概念。简单理解:对于蓝色的线,左边为+,右边为负。对于黄色的线,上边为+,下边为-。总的结果来做异或运算,得到最终结果。单隐藏层输入为x1,x2,x3,x4隐藏层 由于输入层和输出层的大小固定,所以唯一能改变的就是设置隐藏层的大小。输出...

2022-01-20 18:30:07 549

原创 感知机问题

目录1. 感知机定义:2. 具体算法:我的理解:3. 收敛定理:我的理解:4. 感知机存在的问题我的理解:5. 总结:​1. 感知机定义:给定输入x 权重w 偏移量 b 感知机输出为: 其中 感知机实际上是一个二分类问题,输出为:-1 (0)或1与线性回归的区别:线性回归是一个实际上的实数,这里是一个离散的类。与softmax的区别:softmax 如果有n个类,softmax 会有n个输出,输出每个元素的概率。2. 具体算法:我.

2022-01-20 17:16:04 590

原创 softmax回归-损失函数

softmax回归——损失函数

2022-01-15 12:22:23 750

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除