深度学习_GPT2Block详解(casual attention) NewGELUActivation 它是高斯误差线性单元(Gaussian Error Linear Unit,简称 GELU)的一种变体。GELU 激活函数在近年来的深度学习模型中越来越受欢迎,尤其是在自然语言处理(NLP)领域,如 BERT 和 GPT 等模型中。GELU 激活函数的数学定义是输入值 x 乘以标准正态分布的累积分布函数(CDF)在该点的值。casual attention: 对原始attn进行mask。经典的preNorm TFDecoder架构。
强化学习_06_pytorch-PPO2实践(Humanoid-v4) PPO2优化:1) Value Function Loss Clipping;2)batch adv normalize;3)共用一个优化器;4)loss累和;5)特征权重初始化;6)向量环境SyncVectorEnv 及 wrapper技巧
[ deepSpeed ] 单机单卡本地运行 & Docker运行 本文笔者基于官方示例进行本地构建和Docker构建运行示例(下列代码中均是踩坑后可执行的代码,尤其是Docker部分), 全部code可以看。
强化学习_06_pytorch-PPO实践(Hopper-v4) 针对之前的PPO做了主要以下优化:1. `batch_normalize`: 在`mini_batch` 函数中进行adv的normalize, 加速模型对adv的学习2. `policyNet`采用`beta`分布(0~1): 同时增加MaxMinScale 将beta分布产出值转换到action的分布空间3. 收集多个`episode`的数据,依次计算adv,后合并到一个dataloader中进行遍历:加速模型收敛
LLM_InterLM-Demo学习 在多项视觉语言大模型的主流评测上均取得了最佳性能,包括MME Benchmark (英文评测), MMBench (英文评测), Seed-Bench (英文评测), CCBench(中文评测), MMBench-CN (中文评测).模型理解题意生成解此题的 Python 代码,Lagent 调度送入 Python 代码解释器求出该问题的解。设计了高效的训练策略,为模型注入海量的多模态概念和知识数据,赋予其强大的图文理解和对话能力。的封装,同时通过ssh将端口映射到本地,资源占用的时服务器的资源。
【论文解读】ICLR2023 TimesNet: TEMPORAL 2D-VARIATION MODELING FOR GENERAL TIME SERIES ANALYSIS 实时序列通常具有多个周期性,如天气观测的日变化和年变化,电力消耗的周变化和季度变化每个时间点的变化不仅受其相邻区域的时间模式(周期内变化)的影响,而且与相邻周期的变化(周期间变化)高度相关。对于没有明确周期性的时间序列,其变化将以周期内变化为主,相当于具有无限周期长度的时间序列。(这类数据理论上很难进行长期预测)受多周期性和周期内及周期间复杂相互作用的启发,我们找到了一种时间变化建模的模块化方法。笔者思考:没有考虑到特定的人为因素的影响。
【论文解读】元学习:MAML 元学习的目标是在各种学习任务上训练模型,这样它就可以只使用少量的训练样本来解决新任务。论文所提出的。该算法与任何用梯度下降训练的模型兼容,适用于各种学习问题,包括分类、回归和强化学习。论文中表明,该算法在基准上达到了SOTA的性能,在上也产出了良好的结果,。
【论文解读】终生学习LLL-正则化方法:Memory Aware Synapses AMS可以在无监督和在线学习中计算网络参数的重要性。给与新数据可以计算出网络参数的特征重要性,基于模型数据的L2范数的平方,其参数的梯度反应新数据预测的敏感性,将其作为权重,让其保守变化,提高模型的泛化能力和减少模型的复杂度。首次将,这可能会因测试条件而异。
【论文解读】2017 STGCN: Spatio-Temporal Graph Convolutional Networks 使用历史速度数据预测未来时间的速度。同时用于序列学习的RNN(GRU、LSTM等)网络需要迭代训练,它引入了逐步累积的误差,并且RNN模型较难训练。为了解决以上问题,我们提出了新颖的深度学习框架STGCN,用于交通预测。
机器学习_预测概率校准 我们在建模时通常根据准确性或准确性来评估其预测模型,但几乎不会问自己:“我的模型能够预测实际概率吗?但是,从商业的角度来看,准确的概率估计是非常有价值的(准确的概率估计有时甚至比好的精度更有价值)。来看一个例子。AB两个模型的AUC一样。但是根据模型A,你可以通过推荐普通马克杯来最大化预期的利润,然而根据模型B,小猫马克杯可以最大化预期的利润。在像这样的现实应用中,搞清楚哪种模型能够估算出更好的概率是至关重要的事情。
强化学习_06_pytorch-TD3实践(BipedalWalkerHardcore-v3) DDPG的critic会高估, 从而导致actor策略失败。TD3是增加了三个关键技巧优化DDPG。经过优化后的TD3(Twin Dalayed DDPG 双延迟深度确定性策略梯度算法)适合于具有高维连续动作空间的任务。
数据结构_哈夫曼树(python实现) 哈夫曼树是一种重要的数据结构,用于压缩和编码数据。它由经典的数学家和计算机科学家大卫哈夫曼在20世纪50年代发明。哈夫曼树的目的是为了在编码和解码数据中,尽可能地减少所需的比特数。换句话说,它可以将大量数据压缩为在传输过程中所需的最小比特数。在NLP领域的词向量开篇制作Word2Vec中用到了一种softmax优化方法——层次softmax,就是将词频编码成哈夫曼树的形式,然后,(以skip-gram为例)在样本[v, w]进入模型前,将周围词w,基于哈夫曼树映射成从根到叶路径两个方向路径,最终组成。
数据结构_图优化-最小费用最大流MCMF(python解) 线性规划问题有一个有趣的特性,即所有求极大的问题都有一个与其匹配的求极小的线性规划问题。我们通过求解一个问题的对偶问题,再加以转化就可以得到原始问题的解。