自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(1186)
  • 资源 (4)
  • 收藏
  • 关注

原创 【序列召回推荐】(task6)多兴趣召回Comirec-SA

- Comirec-SA基于attention的多兴趣建模,论文中先通过attention提取单一兴趣,再推广到多兴趣建模。另外使用贪心算法优化带有准确度+多样性的目标函数。- DR把MIND的attention换成argmax(还是初始化方式改了),SR则本质是多头注意力进行多兴趣建模。- `torch.einsum`(Einstein summation convention,即爱因斯坦求和约定)可以写tensor运算和更高维度tensor写法更加简洁,如用`torch.einsum("bij, b

2022-11-30 02:48:48 793

原创 【论文笔记】GraphSAGE:Inductive Representation Learning on Large Graphs(NIPS)

- GCN不能泛化到训练过程中没有出现的节点(即属于 $transductive$ 直推式学习,若加入新节点则需要重新训练模型),既然有新增的结点(一定会改变原有节点),那就没必要一定得到每个节点的固定表示。而GraphSAGE就是为了解决这种问题,利用Sample(采样)和Aggregate(聚合)两大核心步骤,通过利用学习到的聚合函数,得到一个新节点的表示。- 本文先介绍GraphSAGE向前传播过程(生成节点embedding),不同的聚合函数设定,然后介绍无监督学习和有监督学习的损失函数和参数学习

2021-10-06 21:11:58 1775 12

原创 【阅读】英语美句100条

01 If I could, I surely would.如果可以,我绝对愿意! 02 May there be enough clouds in your life to make a beautiful sunset. 愿你的生命中有足够的云翳,来造成一个美丽的黄昏。03 The worst way to miss someone is to be sitting right beside them knowing you can’t have them. 失去某人,最糟糕的莫过于,他近

2024-07-22 00:41:18 573

原创 【LLM多模态】DreamLLM多模态学习框架

## 1. 端到端的交错生成式预训练(i-gpt)所有自然文档都可以被视为文本和图像交织信息的载体。而仅有文本、仅有图像以及文本和图像配对的数据可以被看作是具有不同模态组合的交织语料库的特殊情况。因此,赋予模型学习和生成自由形式的交织文档的能力是至关重要的,以涵盖所有可能的分布。交错结构学习:为了建模交错结构,通过在图像之前添加一个特殊的"``"标记来操作交错序列。在训练过程中,DREAMLLM被训练来预测这个表示图像出现位置的""标记,并在之后进行条件图像合成。在推理过

2024-07-18 18:07:42 576

原创 【LLM多模态】Cogview3模型原理和训练过程

# note - 基础阶段:生成512×512分辨率的图像,优化模型以生成高质量的图像。 - 超分辨率阶段:从512×512的输入生成1024×1024分辨率的图像,进一步优化图像的细节和清晰度。 - 蒸馏版本:通过减少采样步骤,生成与原始模型相似质量的图像,但推理时间大大减少。@[toc]# 一、Cogview3模型论文:CogView3: Finer and Faster Text-to-Image Generation via Relay Diffusion相关背景:

2024-07-18 13:08:24 1035

原创 【LLM多模态】InternVL模型架构和训练过程

视觉编码器:InternViT-6B动态高分辨率(和很多多模态LLM不一样的地方):我们将图像根据输入图像的纵横比和分辨率划分为1到40块,每块为448×448像素(图像很大则会被切分,每个块被模型独立处理,可以更好地处理图像的细节),从而支持高达4K分辨率的输入(40个小块)。具体的处理方法如下图。使用pixel shuffle将视觉token减少到原来的四分之一(原始为1024个token)。PixelUnshuffle操作(即Space2Depth操作,即把相邻区块的特征从空间维度往通道维度上堆叠

2024-07-13 23:24:10 1200

原创 【多模态LLM】以ViT进行视觉表征的多模态模型1(BLIP、BLIP-2、InstructBLIP)

- CLIP和BLIP的区别: - CLIP:通过对比学习联合训练,预测图像和文本之间的匹配关系。即使用双塔结构,分别对图像和文本编码,然后通过计算cos进行图文匹配。 - BLIP:包括两个单模态编码器(图像编码器和文本编码器)、一个图像基础的文本编码器和一个图像基础的文本解码器。BLIP通过联合训练三个损失函数:图像-文本对比损失(ITC)、图像-文本匹配损失(ITM)和语言建模损失(LM),以实现多任务学习和迁移学习。 - 训练方式的区别:除了对比学习,BLIP还采用了一种高效率利用噪声网络数据

2024-07-01 21:53:49 1065 1

原创 【LLM】GLM系列模型要点

No Bias Except QKV:为了提升训练速度,我们去除了所有偏差项,除了注意力层中的查询(Query)、键(Key)和值(Value)偏差。这一变化略微改善了长度外推法的性能。RMSNorm 和 SwiGLU:我们用RMSNorm替换了LayerNorm,并用SwiGLU替换了ReLU。这两种策略能够提升模型性能。旋转位置嵌入(RoPE):我们将RoPE扩展到二维形式,以适应GLM中的二维位置编码。分组查询注意力(GQA):我们用GQA替换了传统的多头注意力(MHA),以减少推理过程中

2024-06-24 19:58:45 1047

原创 【智源大会2024】(一)智源技术专题

1.千万级数据集: BAAI创建了首个千万级别的高质量开源指令微调数据集。2.模型性能与数据质量: 强调了模型性能与数据质量之间的高度相关性。3.技术亮点: - 使用了高质量的指令数据筛选与合成技术。 - 这些技术显著提升了模型遵循指令的能力。4.性能比较: - 提到综合性能达到了GPT-4的水平。 - 1000条高质量数据微调的效果可以超过52,000条普通数据。5.数据集评估: - 使用了AlpacaEval和MT-Bench等评估工具来筛选数据。

2024-06-15 11:03:34 291

原创 【多模态/CV】图像数据增强数据分析和处理

多模态大模型训练前,图片处理的常见操作:分辨率调整、网格畸变、水平翻转、分辨率调整、随机crop、换颜色、多张图片拼接等。ORB(Oriented FAST and Rotated BRIEF) 是一种计算机视觉中常用的特征检测算法,它将 FAST 关键点检测和 BRIEF 描述符生成结合起来,同时引入了方向性和尺度不变性。使用 ORB 进行特征检测可以有以下几个应用:- 目标识别:在多幅图像中检测相同的ORB 特征点,并通过这些点的匹配确定目标物体的位置和方向- 图像匹配:在两幅图像中检测 ORB 特

2024-06-08 11:41:19 1103 7

原创 【LLM】度小满金融大模型技术创新与应用探索

在数据准备完之后,就要去做预训练。需要针对中文场景做词表构建,对此,行业内大概有两种解决方案。一种是通过字粒度去扩充,因为汉字只看一个单词的话相对有限,大概数量是 5K 到 8K。另外一种就是很多中文大模型所采用的方法,即大量引入中文词汇,这样词表会比较大。考虑到对原有模型要尽量减少破坏,所以我们最终采用了字粒度扩容的方式,加入了 7K 的中文字符。这使得我们的整个词表大小达到 39K,词表压缩率为 48%。在预训练阶段词表优化完之后,训练采用的是两阶段的优化方式,使得收敛更加稳定。第一阶段主要还是解决

2024-06-06 00:21:26 756

原创 【LLM】两篇多模态LLM综述MultiModal Large Language Models

note(一)现有的 MM-LLM 的趋势:(1)从专门强调 MM 理解对特定模态的生成的进展,并进一步演变为任何到任何模态的转换(例如,MiniGPT-4 → MiniGPT-5 → NExT-GPT);(2) 从 MM PT 提升到 SFT,然后到 RLHF,训练管道进行连续细化,努力更好地与人类意图对齐并提高模型的会话交互能力(例如,BLIP-2 → InstructBLIP →DRESS);(3) 实施多样化模态扩展(例如,BLIP-2 → X-LLM 和 InstructBLIP→X-In

2024-06-02 13:05:46 1536 8

原创 【LLM多模态】多模态LLM在图表处理的应用

在真实场景下,我们进行测试,多模态大模型在处理显著文本时表现尚可,但在处理细粒度文本时往往效果并不太好,why?​具体原因如下:首先,视觉编码器的分辨率对于多模态大模型的性能影响较大,由于视觉信息往往包含大量的细节和复杂性,因此需要高分辨率的编码器来捕捉这些细节。但是,高分辨率编码器的计算成本也相应较高,这会限制模型的训练速度和效率。其次,现有的模型主要依赖于大规模的预训练数据集进行训练,而这些数据集往往只包含一些大规模常规或者合成的图像和文本,比如论文arxiv。因此,这些模型可能无法很好地处

2024-05-26 17:32:24 632

原创 【LLM多模态】综述Visual Instruction Tuning towards General-Purpose Multimodal Model

新加坡-南洋理工大学发的paper,2023年12月我们还是从十大问题分析这篇论文,但由于是综述,可能没有实验环节详细的部分。# 1. 论文试图解决什么问题- 一篇关于Visual Instruction Tuning 视觉指令微调任务的综述,Visual Instruction Tuning是为了让多模态LLM拥有指令遵循能力- 文章介绍传统CV局限性(需要针对不同任务训练不同模型,缺乏交互能力),如下图左侧。- 文章从三方面介绍Visual Instruction Tuning的发展过程:单语言

2024-05-26 14:36:31 840

原创 【LLM多模态】LLava模型架构和训练过程 | CLIP模型

CLIP使用了对比学习的方法,即通过正样本(匹配的图像-文本对)和负样本(不匹配的图像-文本对)来训练模型。在训练过程中,模型会尝试最大化正样本对的相似度(比如通过计算余弦相似度),同时最小化负样本对的相似度。CLIP模型在zero-shot学习中表现强大,可以直接用于zero-shot推理,比如将猫的图片emb后,将猪狗猫等类的文本描述也分别emb,计算图片和类别emb之间的相似度,从而进行分类。CLIP-ViT-L/14模型的14表示每个patch的分辨率为14X14,比如在224x224像素的图像

2024-05-23 23:17:11 5757 4

原创 【LLM多模态】多模态LLM的EMT灾难性遗忘评估框架

# note- 当前很多MLLM多模态大模型,用于视觉问答-聊天机器人,很少评估图片分类能力。在领域SFT数据微调后,EMT框架是评估微调后模型在几个分类数据集上效果,来评估是否出现灾难性遗忘- 实验现象:多数微调后模型的效果,比基础视觉编码器CLIP分数更低。评估的模型:用EMT来评估四个模型:LLaVA、Otter、LENS和InstructBLIP。- 微调实验结论:Lora微调比线性微调(微调线性适配器adapter)导致更多遗忘

2024-05-20 22:45:51 621

原创 处理DecompressionBombWarning: Image size (101896752 pixels) exceeds limit of 89478485 pixels

# 一、问题描述有如下的警告。这是因为Pillow默认设置了一个最大图像处理像素限制,目的是防止巨大图像的处理消耗过多的内存,可能导致拒绝服务攻击(DOS)。```python# warning如下:DecompressionBombWarning: Image size (101896752 pixels) exceeds limit of 89478485 pixels, could be decompression bomb DOS attack.```# 二、解决方案方法一:增加像

2024-05-09 00:15:18 379 1

原创 【LLM多模态】MiniGPT4模型架构和训练流程

- 图生文应用场景:比如电商领域根据产品图像生成产品描述、娱乐领域中根据电影海报生成电影介绍等- MiniGPT-4将预训练的大语言模型和视觉编码器参数同时冻结,只需要单独训练线性投影层,使视觉特征和语言模型对齐。- MiniGPT4的视觉编码器:使用了与BLIP-2相同的预训练视觉语言模型,该模型由2个部分组成: - 视觉编码器ViT(vision transformer):提取图像中的基本视觉特征。miniGPT-4使用了EVA-CLIP中的ViT-G/14进行实现(初始化该模块的代码如下) -

2024-05-02 09:14:45 1297

原创 【LLM硬件】V100、A100、A800、H100参数对比

NVIDIA GPU 的核心参数:CUDA Core:CUDA Core 是 NVIDIA GPU上的计算核心单元,用于执行通用的并行计算任务,是最常看到的核心类型。NVIDIA 通常用最小的运算单元表示自己的运算能力,CUDA Core 指的是一个执行基础运算的处理元件,我们所说的 CUDA Core 数量,通常对应的是 FP32 计算单元的数量。Tensor Core:Tensor Core 是 NVIDIA Volta 架构及其后续架构(如Ampere架构)中引入的一种特殊计算单元。它们专门用于

2024-04-27 14:17:55 548 2

原创 【LLM多模态】Qwen-VL模型架构和训练流程

Qwen-VL模型的整体网络架构包括以下三个组件:大型语言模型(Large Language Model):- 作用:作为Qwen-VL模型的基础组件,这个部分采用了一个大型语言模型,其初始权重来自于预训练的Qwen-7B模型。- 来源:Qwen-VL的大型语言模型使用了来自Qwen-7B模型的预训练权重。视觉编码器(Visual Encoder):- 作用:视觉编码器采用了Vision Transformer(ViT)架构,用于处理输入图像并生成一组图像特征。在训练和推理过程中,将输入图像调

2024-04-25 22:39:54 3576 2

原创 解决报错OSError: cannot write mode RGBA as JPEG

# 一、问题描述如题:解决报错OSError: cannot write mode RGBA as JPEG,这个错误是在下面代码中出现的:```pythonfrom PIL import Image# 打开图片root_path = "xx"this_image_path = root_path + "example3/4.png"img = Image.open(this_image_path) # .convert('RGB')this_save_path = root_path +

2024-04-08 21:13:28 867

原创 【LLM多模态】CogVLM图生文模型架构和训练流程

Cogvlm模型共包含四个基本组件:ViT 编码器,MLP 适配器,预训练大语言模型(GPT-style)和视觉专家模块。- ViT编码器:在 CogVLM-17B 中,采用预训练的 EVA2-CLIP-E。也就是上图将图片进入vit encoder编码。在CogVLM-17B中,移除了ViT编码器的最后一层,因为该层专注于整合[CLS]特征以用于对比学习。- MLP 适配器:MLP 适配器是一个两层的 MLP(SwiGLU),用于将 ViT 的输出映射到与词嵌入的文本特征相同的空间。注:所有的图像特

2024-03-24 16:29:49 3838 2

原创 解决nvidia-smi无进程,但GPU显存被占用的情况

# 一、问题描述如题,解决nvidia-smi无进程,但GPU显存被占用的情况。# 二、解决方案```python# 查看没有显示出来的进程fuser -v /dev/nvidia*# Kill掉sudo kill -9 pid```如果要`kill`的进程特别多,可以用以下的python脚本:```pythonimport ospid = list(set(os.popen('fuser -v /dev/nvidia*').read().split()))kill_cmd =

2024-03-24 10:35:44 655 1

原创 【LLM】LLama2模型(RMSNorm、SwiGLU、RoPE位置编码)

预训练语言模型除了自回归(Autoregressive)模型GPT,还有自编码模型(Autoencoding)BERT[1]、编-解码(Encoder-Decoder)模型BART[67],以及融合上述三种方法的自回归填空(Autoregressive Blank Infilling)模型GLM(General Language Model)[68]。ChatGPT的出现,使得目前几乎所有大语言模型神经网络结构趋同,采用自回归模型,基础架构与GPT-2相同,但在归一化函数、激活函数及位置编码等细节方面有所

2024-03-16 22:18:56 1689 1

原创 【LLM加速】注意力优化(基于位置/内容的稀疏注意力 | flashattention)

note(1)近似注意力:Routing Transformer采用K-means 聚类方法,针对Query和Key进行聚类,类中心向量集合为 其中k 是类中心的个数。每个Query 只与其处在相同簇 (Cluster) 下的Key 进行交互。Reformer 则采用局部敏感哈希 (Local-Sensitive Hashing,LSH) 的方法为每个Query 选择Key-Value 对。其主要思想是使用LSH 函数对

2024-03-16 17:15:49 1196

原创 【他山之石】BlueLM蓝心大模型的落地

# note- 预训练:我们采用了混合精度训练以及梯度缩放策略,因为这可以减少训练周期,训练周期较少会节省模型训练所需的时间和资源。选择回放训练能够让模型定向学会一类知识信息。Loss 预测确保在训练过程前对损失进行估计,以保证训练过程中的损失符合我们的预期,最终收敛较好的结果。- SFT微调:采用了“target only loss”方法,并通过聚类分析对指令进行了适应性处理,以更好地确保模型的均衡性。- RLHF对齐:人类价值对齐阶段,我们采用了离线采样策略和双重奖励模型等策略,会在安全性上明显提

2024-03-14 00:29:44 1195

原创 【LLM】Advanced rag techniques: an illustrated overview

RAG中的智能体(Agents in RAG)OpenAI 助手基本上整合了开源 LLM 周边工具——聊天记录、知识存储、文档上传界面。最重要的能力还是function call。在 LlamaIndex 中,有一个 OpenAIAgent 类将这种高级逻辑与 ChatEngine 和 QueryEngine 类结合在一起,提供基于知识和上下文感知的聊天,以及在一个对话轮次中调用多个 OpenAI 函数的能力,这真正实现了智能代理行为。【栗子】多文档智能体在每个文档上初始化一个Agent(Open

2024-03-10 18:04:01 1221

原创 【RAG】Chain-of-Verification Reduces Hallucination in LLM

相关工作大多数减少幻觉的方法大致可分为三类:训练时校正、生成时校正和使用工具。在训练时校正方法中:尝试通过训练或以其他方式调整模型权重以降低幻觉生成的概率来改进编码器-解码器或仅解码器语言模型的原始从左到右生成。这包括使用强化学习(Roit et al., 2023;Wu et al., 2023)、对比学习(Chern et al., 2023b;Sun et al., 2023b)和其他方法(Li et al., 2023)。在生成时校正中:一个共同的主题是在基础 LLM 的“之上”做出推理决策

2024-03-10 16:37:07 1245

原创 【多模态LLM】(task1)Sora相关技术路径

一、Sora是什么?Sora是text-to-video模型 (可能是世界模型),OpenAl的研究人员选择这个名字,因为它“唤起了无限创造力潜能”,特点是: 创建最多60秒的视频,高度详细的场景,复杂的多相机视角以及富有情感的多角色。Sora官网链接:https://openai.com/sora优点:连续多帧的视频。视频融合。同一场景的多角度/多镜头的生成能力。人和其他场景元素在三维空间中一致移动。支持任意分辨率,宽高比的视频输出。缺点:对物理规律的理解仍然有限。Sora能力总

2024-02-29 00:32:42 889

原创 终端启动jupyter notebook更换端口

一、问题描述如果尝试在端口 8889 上启动 Jupyter Notebook 但最终启动在了 8890 端口,这通常意味着 8889 端口已经被占用。要解决这个问题,可以尝试以下几种方法来关闭占用 8889 端口的进程。1. 查找并终止占用端口的进程首先,需要找出哪个进程正在占用 8889 端口。打开终端或命令行界面,然后根据操作系统使用以下命令:对于 macOS 和 Linux:lsof -i :8889这将列出所有占用端口 8889 的进程。会看到一些列,其中包含进程的 ID(PID

2024-02-24 11:51:57 1481

原创 【记录】个人博客或笔记中的数学符号设定

# note- 这里记录个人博客中常用的数学符号数学格式和对应含义@[toc]# 数与数组$$\begin{array}{ll}\boldsymbol{\alpha} & \text { 标量 } \\\boldsymbol{\alpha} & \text { 向量 } \\\boldsymbol{A} & \text { 矩阵 } \\\mathbf{A} & \text { 张量 } \\\boldsymbol{I}_n & n \text { 行 } n \text { 列单

2024-02-17 10:37:29 1249

原创 【LLM】(KV cache优化)MHA、MQA、GQA、MLA、YOCO机制的区别

MHA机制(Multi-head Attention)MHA(Multi-head Attention)是标准的多头注意力机制,包含h个Query、Key 和 Value 矩阵。所有注意力头的 Key 和 Value 矩阵权重不共享MQA机制(Multi-Query Attention)MQA(Multi-Query Attention,Fast Transformer Decoding: One Write-Head is All You Need)是多查询注意力的一种变体,也是用于自回归解码的一

2024-02-16 17:08:59 1168

原创 【LLM-RAG】BGE M3-embedding模型(模型篇|混合检索、多阶段训练)

M3-Embedding联合了3种常用的检索方式,对应三种不同的文本相似度计算方法。可以基于这三种检索方式进行多路召回相关文档,然后基于三种相似度得分平均求和对召回结果做进一步重排。多阶段训练过程:在这里插入图片描述第一阶段:第一阶段的自动编码预训练采用的是RetroMAE,在105种语言的网页跟wiki数据上进行,从而获得一个基底模型第二阶段:在第一个数据源的弱监督数据进行预训练,这阶段的损失损失只考虑基于稠密检索的对比学习损失。最后第三阶段会在第二,三个数据源的监督数据进行训练,这阶段

2024-02-16 16:01:32 6212

原创 【leetcode994】腐烂的橘子(BFS)

首先将所有烂橘子入队,然后常规BFS遍历,注意while的截止条件除了队列为空,新鲜橘子数量大于0(没新鲜橘子也没必要继续遍历,保证时间计算的正确性),这两者一个不满足就可以停止每分钟进行一次【腐烂扩散】,使用BFS对二维图进行遍历,注意和二叉树的层次遍历不一样(二叉树则是只有一个根节点,这里可能有多个腐烂橘子-根节点)。auto [x, y] = q.front()是C++17引入的新语法,结构化绑定,可以从数组、元组或结构体中一次性解包多个值,并将他们绑定到多个变量上,比如这里就是声明了x和y变量,

2024-02-16 11:34:41 483 1

原创 【Python】单元测试unittest框架

使用unittest框架进行单元测试是Python标准库的一部分,提供了编写测试用例、测试套件以及运行测试的能力。测试用例是继承自unittest.TestCase的类。在这个类中,你可以定义一系列的方法来测试不同的行为。每个测试方法都应该以test开头。下面代码是一个简单的测试用例# test-单元测试import unittest# 子类必须继承unittest.TestCase类class TestMethod(unittest.TestCase): # 每个测试方法都需要以tes

2024-02-12 12:00:31 1217 1

原创 解决ERROR 1290 (HY000): The MySQL server is running with the --secure-file-priv option

一、问题描述一个很简单的步骤:在datagrip中mysql数据库中建表后想导入本地csv数据文件到该表中,发现报错:ERROR 1290 (HY000): The MySQL server is running with the --secure-file-priv option。二、解决方法在mysql环境中使用show variables like "secure_file_priv";查看变量参数,如果参数值是null则说明没有设置该选项,如果该参数是个特定文件路径,则需要将文件放在该文件中

2024-02-12 10:48:45 910 1

原创 【思考】打工者思维VS创业者思维

创业者思维是指一种特定的思维方式和心态,通常与创业者的特质和行为相联系。它包括以下几个方面:创新和机会观察:创业者思维强调对新的机会和创新的敏锐观察力。创业者寻找新的商机,发现问题和需求,并提出创新的解决方案。主动性和积极性:创业者思维鼓励积极主动地采取行动,不等待机会而是创造机会。创业者愿意承担风险,勇于面对挑战,并抓住机遇。目标导向和结果导向:创业者思维注重设定明确的目标,并通过制定计划和策略来实现这些目标。他们关注工作的结果和成果,不满足于现状,不断追求卓越。自信和决心:创业者思维信心十足,

2024-02-09 23:56:12 752

原创 【LLM多模态】Cogview3、DALL-E3、CogVLM、LLava模型

丹青模型基于原生中文语料数据及网易自有高质量图片数据训练,与其他文生图模型相比,丹青模型的差异化优势在于对中文的理解能力更强,对中华传统美食、成语、俗语、诗句的理解和生成更为准确。VisualGLM 是一个依赖于具体语言模型的多模态模型,而CogVLM则是一个更广阔的系列,不仅有基于GLM的双语模型,也有基于Llama2系列的英文模型。之前的多模态模型:通常都是将图像特征直接对齐到文本特征的输入空间去,并且图像特征的编码器通常规模较小,这种情况下图像可以看成是文本的“附庸”,效果自然有限。

2024-01-30 22:57:32 2325 2

原创 【RL】(task5)PPO算法和代码实现

分为三个步骤step1 我做你看:有监督学习,从训练集中挑出一批prompt,人工对prompt写答案。其实就是构造sft数据集进行微调。step2 你做我看:奖励模型训练,这次不人工写答案了,而是让GPT或其他大模型给出几个候选答案,人工对其质量排序,Reward model学习一个打分器;这个让机器学习人类偏好的过程就是【对齐】,但可能会导致胡说八道,可以通过KL Divergence等方法解决。instructGPT中奖励模型的损失函数如下,其中 rθ(x,y) 是奖励模型对提示x和完成y的标量

2024-01-30 00:19:21 925

原创 【RL】(task4)DDPG算法、TD3算法

一、DDPG算法DDPG(Deep Deterministic Policy Gradient)算法DDPG算法是一种结合了深度学习和确定性策略梯度的算法。它主要解决的是在连续动作空间中,智能体(agent)如何通过不断尝试来学习到一个最优策略,使得在与环境交互的过程中获得最大的回报。深度学习:使用深度神经网络来近似表示价值函数和策略。确定性策略:不像一些随机策略,确定性策略为每个状态输出一个确定的动作,这样更容易进行优化。策略梯度:通过计算策略的梯度来更新策略,使得策略朝着更好的方向改进。

2024-01-25 00:27:37 623

基于高阶和时序特征的图神经网络社会推荐研究

基于高阶和时序特征的图神经网络社会推荐研究

2023-04-02

EdgeRec边缘计算在推荐系统的应用

EdgeRec边缘计算在推荐系统的应用

2022-02-24

4-消息传递图神经网络.pdf

4-消息传递图神经网络.pdf

2021-06-19

常用算法总结C&C++.pdf

常用算法总结C&C++.pdf

2021-01-14

Python思维导图.rar

python思维导图,助力学习python知识体系,包含基础知识、列表元组、面向对象模块、数据类型、文件对象、字符串、字典集合等等python知识思维导图

2020-05-10

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除