- 博客(18)
- 收藏
- 关注
原创 Decoder
Decoder 是序列生成任务中的核心组件,通过与 Encoder 配合,能够将抽象表示解码为目标序列。理解 Decoder 的结构和工作原理,对于掌握 Seq2Seq 模型至关重要。希望本文能帮助你更好地理解 Decoder 的作用和实现方式!
2025-02-21 10:04:01
908
原创 Transformer
编码器和解码器中的每一层都包含相同的子层,包括自注意力机制和前馈网络。编码器-解码器结构、位置编码、多头注意力机制、前馈网络通过将输入序列分成多个部分,并行多头计算,可以带有多样化的上下文信息。迁移学习:如果从头开始训练一个模型,所消耗的金钱和时间成本太高,因此一般会选用已经训练好的模型,然后输入另一个领域的语料来重新调整参数,以达到节约时间、成本的目的。
2025-02-15 21:48:17
289
原创 Transformer系列 Task1-模型概述
如字面意思所言,输入一个序列,然后输出一个序列。其最主要的结构在于可以处理输入与输出序列长度不同的情况,例如机器翻译。在处理过程中会在句子前后增加标记(EOS 和BOS),此举可以减少Padding(填充),因为填充的内容在计算时需要忽略,通常通过Mask(掩码)实现,但是类似翻译问题预先无法知道句子长度,造成了困难,于是Seq2seq出现了。优点1.端到端学习2.处理可变长度序列3.信息压缩为固定长度序列4.可扩展性缺点1.信息缺失2.短期记忆限制。
2025-02-12 17:41:10
289
原创 变领域搜索算法
self.max_iter=max_iter #最大迭代次数self.k_max=k_max #领域切换上限self.patience=patience # 早停机制self.history=[] #记录历代解#初始解生成-比甲方需求更随机"""problem_size:问题维度(建议设置成前任数量)""""""k=1 轻轻扰动 k=2 中等扰动 k=3 狂暴扰动"""#第一重搜索 单点突变#第二重搜索:交换操作。
2025-02-12 14:44:31
311
原创 第二章 线性规划的几何
在本章中,我们将多面体描述为由有限个线性等式和不等式描述的几何,特别的,在一个线性规划问题中的可行集是一个多面体。我们将主要研究其顶点。本章的结果表明非空的多面体至少有一个顶点当且仅当其不含一条直线,基于此,线性规划问题的最优解的寻找被限制在了顶点上。
2024-09-18 11:22:54
796
原创 线性规划导论-2
在本节中我们考虑一些简单的例子来说明线性规划问题的本质,即从图形视角来学习。考虑如下问题:我们假设用z来代表目标函数,即z=-x1-x2,对于所有的(x1,x2)来说,这都是穿过向量(-1,-1)的线.下图中的阴影部分便是可行域。我们的目的是要要最小化z,那我们就是要沿着-c的方向尽可能的移动,我们最能做到的便是z=-2,可以看到我们是在可行域的角上。对于三维的问题来说时同样的,只不过点的集合从线变成了一个平面。
2024-09-16 21:27:34
280
原创 线性规划导论 《Introduction to linear optimization》
介绍一下运筹优化一些基本架构和知识。运筹优化主要包含三优化的内容,分别是凸优化、线性规划和数值优化。其中凸优化最有名的当属Stephon Boyed :《Convx optimization》这本书,其中大部分为理论,其实还是有点晦涩难懂的,但是对于优化会有很好的理解;
2024-09-15 12:03:54
1766
1
原创 第八章 DQN算法进阶
本章介绍DQN改进的一些算法,改进角度略有不同,例如Double DQN 及Dueling DQN主要从网络模型层面改进,而PER DQN则从经验回放的角度改进。算法各有不同,但本质都是从提高预测精度和控制过程中的探索度来改善DQN算法性能。
2023-12-23 16:05:53
1138
1
原创 第七章 DQN算法
定义模型即定义两个神经网络,当前网络和目标网络,由于结构相同,我们只用一个python类定义。class MLP(nn.Module): # 所有网络必须继承 nn.Module 类,这是 PyTorch 的特性# 定义网络的层,这里都是线性层self.fc1 = nn.Linear(input_dim, hidden_dim) # 输入层self.fc2 = nn.Linear(hidden_dim,hidden_dim) # 隐藏层。
2023-12-21 10:35:52
1306
原创 免模型控制
伪代码第二行到最后一行是一个强化学习的通用模式,首先迭代M回合,每回合首先重置环境到初始化,智能体根据状态选择动作,根据环境反馈下一个状态和对应奖励,同时智能体跟新策略,直到回合结束,这就是马尔可夫决策过程中智能体与环境互动过程。for i_ep in range(train_eps):#遍历每个回合#重置环境,获取初始状态state=env.reset() #重置环境,即开始新的回合while True:#对于复杂的游戏可设置每回合最大步长,例如while ep_step<100,即最大步长100。
2023-12-17 21:22:47
127
1
原创 第三章 动态规划
马尔可夫决策过程是强化学习中的基本问题模型之一,而解决马尔可夫决策过程的方法统称为强化学习算法。本章开始学习基础算法之一,动态规划(DP)。指在一个复杂问题中将其分为多个子问题进行求解。RL中,其被用来求解值函数和最优策略。包括值迭代(VI),策略迭代(PI),Q-learning。
2023-12-16 11:55:56
170
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人