自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(9)
  • 收藏
  • 关注

原创 《Mastering the game of Go without human knowledge》中用到的“蒙特卡洛树搜索算法”

(本文参考——视频)蒙特卡洛树搜索拓展自蒙特卡洛规划,可以分为以下三个部分:单一状态的蒙特卡洛规划:多臂赌博机(multi-armed bandits)、上限置信区间策略(Upper Confidence Bound Strategies-UCB )、蒙特卡洛树搜索(MCTS)。k种行动(即k个摇臂),每次摇动一个赌博机问题下,每次以随机采样的形式采取一种行动(拉动一个赌博机的臂膀,得到R(s,k)的回报)。问:前几次拉动赌博机的臂膀下,下次如何拉动才能获得最大回报?

2024-04-10 10:18:15 857 1

原创 阅读论文摘录3 《3-D Gravity Inversion》

reach a sufficient amount(数量) and ensure diversity(多样性) 达到足够的数量并确保多样性。the cross- and plan-sections of ......的横截面还有平面剖面。the relation presented by... 被...提出的关系。decompose(分解) the 3D domain(域) 分解三维域。x-axis and y-axis point to 轴指向。

2024-04-06 10:54:09 331 1

原创 《Mastering the game of Go without human knowledge》阅读摘录总结

特点 ①从随机游戏开始,未使用监督和人类数据,进行自我游戏强化学习训练 ②只以棋盘上黑白宝石为特征 ③单一神经网络,拒绝分开的策略和价值网络。④使用简单的树搜索,仅依赖于上述单一的神经网络评估位置和采样移动,拒绝执行蒙特卡洛步骤。介绍了AlphaGo程序及其组成,包括:①一个输出移动概率的策略网络(监督学习训练,预测玩家举动,强化学习改进) ②输出位置评估的价值网络(预测策略网络对自己博弈的赢家) ③结合蒙特卡洛树搜索(提供前瞻搜索),结合策略网络缩小到高概率移动,并使用价值网络评估树的位置。

2024-04-03 12:05:10 681 1

原创 阅读论文摘录2 《3-D Gravity Inversion》

In order to reduce the nonunique solution 为了减少非唯一解。the shallow/deep feature maps 浅层、深层特征映射。the regularization function 正则化函数。a contracting(收缩) path 一个收缩路径。the recursive relation递归关系。in the same domain 在一样的域中。the backpropagation 反向传播。

2024-04-03 11:20:44 295 1

原创 AlphaGo Zero +深度强化学习:初步了解

AlphaGo Zero是谷歌下属公司Deepmind的新版人工智能程序,是计算机强化学习的一个深度里程碑。在围棋游戏中能够达到超越人类专家水平的表现。与之前的版本不同,AlphaGo Zero的训练完全基于自我对弈,无需使用人类对局的数据。

2024-04-02 19:47:53 956 1

原创 阅读论文摘录1 《3-D Gravity Inversion》

地球科学下的反演问题:地球物理反问题常用模型:地震波传播模型、地磁场模型、重力场模型、地热流模型(以数学角度看:常微分方程、偏微分方程、积分方程、线性问题、非线性问题、解析方法、数值方法)

2024-04-01 20:45:57 633

原创 《深度学习PyTorch版》:第六章 卷积神经网络摘录

当滑动到一个新位置时,包含在该窗口的部分张量与卷积核张量进行按元素相乘,得到的张量再求和得到单一的一个标量值。为有效利用每张图像的空间结构信息,而不是简单的将图像数据展成一维向量,卷积神经网络出现了。卷积层(一个错误的运算):它想表达的是互相关运算而不是卷积运算。隐藏表示:可想象为一系列具有二维张量的通道,这些通道有时也称为特征映射,因为每个通道都向后续层提供了一组空间化的学习特征。V卷积核/滤波器:可简单的解释为该卷积层的权重,通常该权重是可学习的参数。卷积神经网络:包含卷积层的一类特殊的神经网络。

2024-03-31 12:24:36 151

原创 《深度学习PyTorch版》:第四章 多层感知机摘录

多层感知机:最简单的深度神经网络。多层感知机由多层神经元组成,每一层与它的上一层相连,从中接受输入;每一层也与下一层相连,影响当前层神经元。介绍的概念及技术:过拟合、欠拟合和模型选择;权重衰退和暂退法等正则化技术;数值稳定性和参数初始化问题。

2024-03-12 22:32:35 881

原创 《深度学习PyTorch版》:第三章 线性神经网络摘录

交叉熵:主观概率为Q的观察者在根据概率p生成的数据时的预期惊异。这一系列,是作者阅读李沐、阿斯顿编写的《深度学习PyTorch版》所作的笔记,作者目前关于深度学习所作的思考和实现的能力都较浅,阅者见谅。抽取小批量,初始化模型的值,(迭代)计算小批量的损失均值关于模型参数的导数(梯度),最后将梯度乘学习率,并从当前参数的值中减掉。独热编码:给猫、狗、鸡赋值{(1,0,0),(0,1,0),(0,0,1)}。校准:分类器输出0.5的所有样本中,样本中刚好有一半实际上属于预测的类,这个属性叫做校准。

2024-03-12 20:31:21 303

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除