马念同学-CSDN博客

原创《Mastering the game of Go without human knowledge》中用到的“蒙特卡洛树搜索算法”

（本文参考——视频）蒙特卡洛树搜索拓展自蒙特卡洛规划，可以分为以下三个部分：单一状态的蒙特卡洛规划：多臂赌博机（multi-armed bandits）、上限置信区间策略（Upper Confidence Bound Strategies-UCB ）、蒙特卡洛树搜索（MCTS）。k种行动（即k个摇臂），每次摇动一个赌博机问题下，每次以随机采样的形式采取一种行动（拉动一个赌博机的臂膀，得到R(s,k)的回报）。问：前几次拉动赌博机的臂膀下，下次如何拉动才能获得最大回报？

2024-04-10 10:18:15 857 1

原创阅读论文摘录3 《3-D Gravity Inversion》

reach a sufficient amount（数量） and ensure diversity（多样性）达到足够的数量并确保多样性。the cross- and plan-sections of ......的横截面还有平面剖面。the relation presented by... 被...提出的关系。decompose（分解） the 3D domain（域）分解三维域。x-axis and y-axis point to 轴指向。

2024-04-06 10:54:09 331 1

原创《Mastering the game of Go without human knowledge》阅读摘录总结

特点 ①从随机游戏开始，未使用监督和人类数据，进行自我游戏强化学习训练 ②只以棋盘上黑白宝石为特征 ③单一神经网络，拒绝分开的策略和价值网络。④使用简单的树搜索，仅依赖于上述单一的神经网络评估位置和采样移动，拒绝执行蒙特卡洛步骤。介绍了AlphaGo程序及其组成，包括：①一个输出移动概率的策略网络（监督学习训练，预测玩家举动，强化学习改进） ②输出位置评估的价值网络（预测策略网络对自己博弈的赢家） ③结合蒙特卡洛树搜索（提供前瞻搜索），结合策略网络缩小到高概率移动，并使用价值网络评估树的位置。

2024-04-03 12:05:10 681 1

原创阅读论文摘录2 《3-D Gravity Inversion》

In order to reduce the nonunique solution 为了减少非唯一解。the shallow/deep feature maps 浅层、深层特征映射。the regularization function 正则化函数。a contracting（收缩） path 一个收缩路径。the recursive relation递归关系。in the same domain 在一样的域中。the backpropagation 反向传播。

2024-04-03 11:20:44 295 1

原创 AlphaGo Zero +深度强化学习：初步了解

AlphaGo Zero是谷歌下属公司Deepmind的新版人工智能程序，是计算机强化学习的一个深度里程碑。在围棋游戏中能够达到超越人类专家水平的表现。与之前的版本不同，AlphaGo Zero的训练完全基于自我对弈，无需使用人类对局的数据。

2024-04-02 19:47:53 956 1

原创阅读论文摘录1 《3-D Gravity Inversion》

地球科学下的反演问题：地球物理反问题常用模型：地震波传播模型、地磁场模型、重力场模型、地热流模型(以数学角度看：常微分方程、偏微分方程、积分方程、线性问题、非线性问题、解析方法、数值方法)

2024-04-01 20:45:57 633

原创《深度学习PyTorch版》：第六章卷积神经网络摘录

当滑动到一个新位置时，包含在该窗口的部分张量与卷积核张量进行按元素相乘，得到的张量再求和得到单一的一个标量值。为有效利用每张图像的空间结构信息，而不是简单的将图像数据展成一维向量，卷积神经网络出现了。卷积层（一个错误的运算）：它想表达的是互相关运算而不是卷积运算。隐藏表示：可想象为一系列具有二维张量的通道，这些通道有时也称为特征映射，因为每个通道都向后续层提供了一组空间化的学习特征。V卷积核/滤波器：可简单的解释为该卷积层的权重，通常该权重是可学习的参数。卷积神经网络：包含卷积层的一类特殊的神经网络。

2024-03-31 12:24:36 151

原创《深度学习PyTorch版》：第四章多层感知机摘录

多层感知机：最简单的深度神经网络。多层感知机由多层神经元组成，每一层与它的上一层相连，从中接受输入；每一层也与下一层相连，影响当前层神经元。介绍的概念及技术：过拟合、欠拟合和模型选择；权重衰退和暂退法等正则化技术；数值稳定性和参数初始化问题。

2024-03-12 22:32:35 881

原创《深度学习PyTorch版》：第三章线性神经网络摘录

交叉熵：主观概率为Q的观察者在根据概率p生成的数据时的预期惊异。这一系列，是作者阅读李沐、阿斯顿编写的《深度学习PyTorch版》所作的笔记，作者目前关于深度学习所作的思考和实现的能力都较浅，阅者见谅。抽取小批量，初始化模型的值，（迭代）计算小批量的损失均值关于模型参数的导数（梯度），最后将梯度乘学习率，并从当前参数的值中减掉。独热编码：给猫、狗、鸡赋值{（1，0，0），（0，1，0），（0，0，1）}。校准：分类器输出0.5的所有样本中，样本中刚好有一半实际上属于预测的类，这个属性叫做校准。

2024-03-12 20:31:21 303

m5678m的博客