BBBBBAAAAAi-CSDN博客

转载 PPO算法

近端策略优化（PPO）是一种强化学习算法，由OpenAI于2017年提出，旨在解决传统策略梯度方法（如TRPO）计算复杂性和训练不稳定的问题。PPO通过限制策略更新幅度，确保每一步训练不会偏离当前策略太多，同时高效利用采样数据。其核心思想包括：1）限制策略更新幅度，防止策略过度偏离；2）使用优势函数评估动作的相对好坏；3）优化值函数；4）引入策略熵正则化，鼓励探索，防止过早收敛到局部最优。PPO的算法流程包括采样、计算优势函数、计算概率比率、策略更新、值函数更新和重复迭代，通过多轮迭代逐步优化策略，直到收敛

2025-05-18 17:18:38 107

转载 PPO、GRPO、DAPO

公式（3）是时间拆分误差（Temporal Difference Error, TD Error）的数学表达式，常用于强化学习（Reinforcement Learning）中的值函数更新（如 TD-Learning 或 TD(λ) 算法）。详细解释如下：以一个例子来理解TD ErrorGRPO对PPO的改进如下：1）消除值函数，以组相对的方式计算优势（①为一个Prompt生成多个输出序列，②为这些输出序列打分，③计算这些序列分值的均值、标准差，④做归一化即得到每个序列的优势。）；2）将kl散度相应的内容加

2025-04-05 17:41:44 593

原创为什么F1值可以用作为衡量类别不平衡任务的重要指标？

F1值、f1值、Precision精确率、Recall召回率、样本不平衡、TP、TN、FP、FN

2023-06-28 16:31:09 2087

原创 IMAGEBIND: One Embedding Space To Bind Them All

图像模态数据对齐其他六种模态数据

2023-05-17 11:04:50 1584

原创 Cross-Modal Complementary Network with Hierarchical Fusion for Multimodal Sentiment Classification

多模态情感分析

2023-04-11 20:25:42 541

原创多模态机器学习对齐内容

介绍多模态机器学习对齐方向内容

2023-03-06 16:35:38 7237 1

原创 huggingface中BertModel和BertForPreTraining的区别

BertModel与BertForPreTraining的区别

2022-11-12 14:39:20 1162 3

原创 MultiSentiNet: A Deep Semantic Network for MultimodalSentiment Analysis（CCF B）

使用图像对象特征和场景特征指导文本特征向量的生成，最终求得了较好的性能。

2022-11-08 10:58:32 1048

原创 Image-Text Interaction Network（CCF B）

本篇文章重点关注图像和文本信息的对齐工作，在MVSA-S和MVSA-M数据集上达到了SOTA

2022-11-06 16:35:18 5021 18

原创 A Co-Memory Network for Multimodal Sentiment Analysis

首次使用co-memory来提升多模态情感分析的性能，达到了当时的SOTA效果

2022-11-05 19:17:22 1276 2

原创 Fusion-Extraction Networkfor Multimodal Sentiment Analysis（CCF C类）

使用的数据集是来自twitter的MVSA-Single和MVSA-Multiple。与CoMN相比，FENet网络结构是用细粒度的注意力机制达到了当时的SOTA

2022-11-05 16:45:47 2003

原创机器学习、深度学习中语义信息理解

机器学习中的语义信息理解内容

2022-10-22 19:47:42 851

转载 Cross Domain，Domain Adaptation，Domain Generalization概念的解释

Cross Domain，Domain Adaptation，Domain Generalization概念解释

2022-10-08 19:14:17 2226 1

原创 Cross-Modal Prompt Tuning

本篇清华刘知远组提出的CPT模型是在多模态的图像端使用prompt技术的首个工作，经过大量的实验表明，该方法取得了好的zero-shot和few-shot性能，在全数据上的性能也超越了普通的微调方法。

2022-10-06 21:49:59 827

原创 Visual Prompt Tuning

对于大量的识别任务来说，最准确的结果是通过对在大量原始数据上预训练的大型基础模型进行调整获得的，然而在实际中，使这些大型的模型去适应下游任务有其自身的挑战。这种方法是不可行的，特别是对于哪些基于transformer的结构，比如ViT-H有6亿多的参数，ResNet-50有25M的参数。在下游任务训练期间，该方法会冻结预训练的transformer backbone，通过引入少量的特定于任务的可学习的参数到输入空间来实现和full fine-tune相当甚至是超过全微调的性能。使用验证集来选择超参数。

2022-10-06 13:43:18 3520

原创 GPT Understands，Too

1.本文的背景 GPT之前只能做文本生成任务，不能做文本理解任务。通过提出的P-tuning方法，使用可以训练的连续提示embeddings，在NLU任务上可以达到和同等规模BERT相当的性能，甚至更好。2.本文的贡献文章的贡献(1)在NLU任务上，使用P-tuning的GPT可以取得和BERT相当的效果。意味着GPT结构在NLU任务中的潜力被低估了。(2)P-tuning是一种通用的方法来提升BERT和GPT在小样本和全监督数据设置中的性能。并且使用P-tuni...

2022-04-07 18:57:46 1553

原创 The Power of Scale for Parameter-Efficient Prompt Tuning及prefix tuning与prompt tuning的区别

1.本文贡献（1）提出prompt tuning，并在大型语言模型领域展示其与model tuning(fine tuning)的竞争力；（2）减少了许多设计选择，显示质量和鲁棒性随着规模的增加而提高。（3）在域转移问题上，显示prompt tuning优于model tuning。（4）提出“prompt ensembling”，并展示其有效性。2.Prompt tuning 在GPT-3中，提示标记P={p1，p2，…，pn}的表示是模型embedding ta...

2022-04-04 15:09:55 4044 5

原创 Prefix-Tuning: Optimizing Continuous Prompts for Generation

1.本文提出了Prefix-Tuning，一种轻量级的自然语言生成任务的fine-tune替代方案，使语言模型参数保持冻结状态，但是优化了一个小的连续的特定于任务的向量（这个向量称之为前缀）。2.adapter-tuning是在预训练模型的层之间插入额外的特定于任务的层。只添加了2%-4%的任务参数。3.GPT-3的in-context learning或者prompting，即在任务输入中预先准备自然语言任务指令和一些示例，然后从LM输出。3.问题描述：（1）假设有一个基于Tra...

2022-04-04 15:08:17 3095 2

原创 Learning to Prompt for Vision-Language Models

1.问题背景识别正确的提示（识别精度尽可能高的提示），通常需要花费非常多的时间来进行单词的调整，在单词中的一个轻微改变都可以使得在性能上有巨大的不同。但是可以发现即使是做了大量的调整，最后的精度可能不是最优的。受到NLP领域中prompt learning研究的启发，本文提出了Context Optimization（CoOp），具体来说固定整个预训练模型的参数，然后对text encoder中的提示词进行学习，自动化提示工程。对于一个新的类别分类任务来说，一个描述与任务相关的...

2022-04-04 15:07:16 7303

原创 Zero-shot learning,Few-shot learning简单理解

Zero-shot learning,Few-shot learning

2022-03-11 19:39:46 1806

原创批量归一化

批量规范化（batch normalization）[Ioffe & Szegedy, 2015]，这是一种流行且有效的技术，可持续加速深层网络的收敛速度。再结合残差块，批量规范化使得研究人员能够训练100层以上的网络。...

2022-02-25 09:11:45 1418

原创卷积神经网路

1.两个原则平移不变性，假设要找的目标位于左上未虚化的框里，如果目标在其他地方出现，那么所具有的特征应是一样。也就是说同样的分类器可以应用在别的地方找相同的目标。分类器不会因图片像素位置的变化而变化。局部性，找目标时，不需要看太多的内容，只需看附近的内容即可，只需要局部信息即可。...

2022-02-16 17:28:51 1104

原创数值稳定性

目录1.数值稳定性常见的两个问题2.让训练更加稳定1.数值稳定性常见的两个问题梯度爆炸与梯度消失梯度爆炸问题梯度消失梯度消失问题总结2.让训练更加稳定2.1 如何使用合理的权重初始化和激活函数想法一：将每层的输出和梯度都看成随机变量，让他们的均值和方法保持一致。如下图例子，接下来探索什么样的条件可以满足上诉要求。例如下面MLP例子，下面来看反向所以满足以下两个条件，但是两个条件很难同时满足。...

2022-02-09 21:27:31 2091

原创避免过拟合之丢弃法

丢弃法，drop out

2022-02-08 17:09:26 1168

原创权重衰退法

权重衰退

2022-02-08 14:36:48 347

原创模型选择+过拟合+欠拟合

模型复杂度和数据复杂度2.小批量梯度下降3.总结

2022-02-07 15:47:49 289

原创基础优化算法

1.梯度下降算法2.小批量梯度下降3.总结

2022-02-07 14:41:23 372

原创矩阵计算公式

1.标量导数标量对标量求导2.梯度将导数拓展到向量即为梯度。3.标量对向量求导4.向量对向量求导5.各种情形求导后的结果形状

2022-01-27 10:56:04 1607

原创【无标题】周志华机器学习线性模型

周志华机器学习线性模型

2022-01-25 10:20:38 945

原创实用机器学习第二章

2.2 数据清理1.数据处理思维导图2.数据错误的几种类型（1）outlier指的是一个样本的某一个特征值违背了该特征值的分布，如下图所示，这里用房子类型和每平米房子的价格来展示outlier。SingleFamily为正确的类型，而Single Family和Single Family Lot都是错误的取值，应把空格和Lot删掉，然后就可以并入到第一行了。出错的房子类别就可以归为OutLiers。接下来可以删除OutLiers的值或者手动进行更改。...

2022-01-23 15:19:21 1089 1

qq_43775680的博客