山顶夕景-CSDN博客

原创【序列召回推荐】(task6)多兴趣召回Comirec-SA

- Comirec-SA基于attention的多兴趣建模，论文中先通过attention提取单一兴趣，再推广到多兴趣建模。另外使用贪心算法优化带有准确度+多样性的目标函数。- DR把MIND的attention换成argmax（还是初始化方式改了），SR则本质是多头注意力进行多兴趣建模。- `torch.einsum`（Einstein summation convention，即爱因斯坦求和约定）可以写tensor运算和更高维度tensor写法更加简洁，如用`torch.einsum("bij, b

2022-11-30 02:48:48 826

原创【论文笔记】GraphSAGE：Inductive Representation Learning on Large Graphs（NIPS）

- GCN不能泛化到训练过程中没有出现的节点（即属于 $transductive$ 直推式学习，若加入新节点则需要重新训练模型），既然有新增的结点（一定会改变原有节点），那就没必要一定得到每个节点的固定表示。而GraphSAGE就是为了解决这种问题，利用Sample（采样）和Aggregate（聚合）两大核心步骤，通过利用学习到的聚合函数，得到一个新节点的表示。- 本文先介绍GraphSAGE向前传播过程（生成节点embedding），不同的聚合函数设定，然后介绍无监督学习和有监督学习的损失函数和参数学习

2021-10-06 21:11:58 1816 12

原创【Leetcode152】分割回文串（回溯 | 递归）

这样，通过递归和回溯的方法，我们可以找到所有可能的分割方案。（这个路径即当前方案的所有字符组合列表），直到字符串。每次递归调用会传递新的字符串。具体例子和步骤：假设。

2024-09-18 21:46:38 419

原创【LLM多模态】CogVideoX文生视频模型结构和训练过程

模型名模型介绍入门级模型, 兼顾兼容性。运行、二次开发成本低。视频生成质量更高,视觉效果更好的更大尺寸模型。推理精度FP16*(推荐), BF16, FP32, FP8* (E4M3,E5M2), INT8, 不支持INT4BF16(推荐), FP16, FP32, FP8*(E4M3, E5M2), INT8, 不支持INT4单GPU显存消耗多GPU推理显存消耗推理速度微调精度FP16FP16微调显存消耗(每卡)提示词语言English*English*提示词长度上限。

2024-09-15 15:06:51 849

原创【LLM多模态】文生视频评测基准VBench

Q: 这篇论文试图解决什么问题？A: 这篇论文提出了一个名为VBench的综合基准测试套件，旨在解决视频生成模型评估中存在的挑战。具体来说，它试图解决以下问题：1. 现有评估指标与人类感知不一致：传统的视频生成质量评估指标，如Inception Score (IS)、Fréchet inception distance (FID)、Fréchet Video Distance (FVD) 和 CLIPSIM，与人类的判断并不完全一致。这意味着这些指标可能无法准确反映人类对生成视频质量的真实感受。2.

2024-09-15 14:38:47 1364

原创【Leetcode152】乘积最大子数组（动态规划）

（0）读懂题意：题目的“连续”是指位置的连续，而不是说数字的连续，这是个大坑。（1）确定状态：定义两个状态来记录当前子数组的最大乘积、最小乘积。因为在处理负数时，最小乘积乘以负数可能变为最大乘积。`dp_max[i]`表示以`nums[i]`结尾的子数组的最大乘积、`dp_min[i]`表示以`nums[i]`结尾的子数组的最小乘积。（2）状态转移方程：对于每个元素`nums[i]`，我们的`dp_max[i]`和`dp_min[i]`可以从这三个数中确定：- 只包含当前元素 `nums[i]`。

2024-09-08 20:46:16 495

原创【Leetcode56】合并区间（数组 | 排序）

# 二、思路- 先将所有子列表按照`start_pos`进行排序，有利于保持顺序性，每次处理新子列表时，只用和结果列表`ans_lst`的最后一个子列表对比，如果有重合则合并，然后将合并的新子列表插入结果列表- 排序可以使用`lambda`函数，`intervals.sort(key=lambda x: x[0])`- 时间复杂度O(n)，空间复杂度O(n)# 三、代码```pythonclass Solution(object): def merge(self, intervals):

2024-09-07 19:07:25 476

原创【LLM】文生视频相关开源数据集（VidGen、Panda、Cogvideox等）

note总结了VidGen数据集、Panda-70m数据集、Openvid数据集、OpenVid-1M数据集、Cogvideox训练数据准备过程在一篇综述中还总结了评估指标包括：峰值信噪比（PSNR）、结构相似性指数（SSIM）、Inception 分数（IS）、Fréchet Inception 距离（FID）、CLIP 分数、视频 Inception 分数（Video IS）、核视频距离（KVD）、帧一致性分数（FCS）各家提出的开源数据后，为了证明自己有效，会在上面这些不同指标评测文章目录

2024-09-01 15:38:10 1162

原创【LLM】GLM长文本训练（数据、流程、infra）

GLM融合packing和sorted batching的优点，提出sorted packing训练方法：根据计算量来构建同一批次内的 Pack，确保同一批次中各个 Pack 数据的计算量相近，从而减少了气泡时间。此外，我们还引入了梯度累积技术，以避免排序带来的偏差长短文本混合 SFT 的高效训练方法主要有两种：Packing 和 Sorted Batching。Sorted Batching 可能会引入某些先验知识，即同一批次内的数据长度趋于一致，这有可能导致不良的训练效果。相比之下，Packing 策

2024-08-25 20:06:47 808 1

原创【口语】基础英语之疑问句 | 描述一个认为音乐很重要的人

英语中的疑问句可以根据结构和用途被分为几种主要类型：1. **一般疑问句**（General Questions）: - 结构：助动词 + 主语 + 主要动词 + 其他？ - 例子：Are you from China?2. **特殊疑问句**（Wh-Questions）: - 使用疑问词（如who, what, where, when, why, how等）开头。 - 结构：疑问词 + 助动词 + 主语 + 主要动词 + 其他？ - 例子：What time does

2024-08-04 23:02:32 1121

原创【多模态LLM】多模态理解评测标准（图生文）

# note- 评测图片识别、理解、分析、推理能力；评测多轮对话；扩大评测场景（日常生活、教育娱乐等）- SuperClue-V采用6个标准，即正确性、相关性、流畅性、知识延伸、输出样式多样化、多感官信息融合，来定量的评价模型在所构建的指标下的表现能力，其中正确性、相关性、流畅性这三个指标设置为基础等级，旨在区分头部模型与一般模型的能力，而知识延伸、输出样式多样化、多感官信息融合这三个指标设置为扩展等级，旨在进一步区分头部模型之间的能力@[toc]# 一、图生文LLM评测标准文章地址：ww

2024-08-03 22:16:04 1304 1

原创【阅读】英语美句100条

01 If I could, I surely would.如果可以，我绝对愿意！ 02 May there be enough clouds in your life to make a beautiful sunset. 愿你的生命中有足够的云翳，来造成一个美丽的黄昏。03 The worst way to miss someone is to be sitting right beside them knowing you can’t have them. 失去某人，最糟糕的莫过于，他近

2024-07-22 00:41:18 876

原创【LLM多模态】DreamLLM多模态学习框架

## 1. 端到端的交错生成式预训练(i-gpt)所有自然文档都可以被视为文本和图像交织信息的载体。而仅有文本、仅有图像以及文本和图像配对的数据可以被看作是具有不同模态组合的交织语料库的特殊情况。因此，赋予模型学习和生成自由形式的交织文档的能力是至关重要的，以涵盖所有可能的分布。交错结构学习：为了建模交错结构，通过在图像之前添加一个特殊的"``"标记来操作交错序列。在训练过程中，DREAMLLM被训练来预测这个表示图像出现位置的""标记，并在之后进行条件图像合成。在推理过

2024-07-18 18:07:42 659

原创【LLM多模态】Cogview3模型原理和训练过程

# note - 基础阶段：生成512×512分辨率的图像，优化模型以生成高质量的图像。 - 超分辨率阶段：从512×512的输入生成1024×1024分辨率的图像，进一步优化图像的细节和清晰度。 - 蒸馏版本：通过减少采样步骤，生成与原始模型相似质量的图像，但推理时间大大减少。@[toc]# 一、Cogview3模型论文：CogView3: Finer and Faster Text-to-Image Generation via Relay Diffusion相关背景：

2024-07-18 13:08:24 1304

原创【LLM多模态】InternVL模型架构和训练过程

视觉编码器：InternViT-6B动态高分辨率（和很多多模态LLM不一样的地方）：我们将图像根据输入图像的纵横比和分辨率划分为1到40块，每块为448×448像素（图像很大则会被切分，每个块被模型独立处理，可以更好地处理图像的细节），从而支持高达4K分辨率的输入（40个小块）。具体的处理方法如下图。使用pixel shuffle将视觉token减少到原来的四分之一（原始为1024个token）。PixelUnshuffle操作（即Space2Depth操作，即把相邻区块的特征从空间维度往通道维度上堆叠

2024-07-13 23:24:10 2940

原创【多模态LLM】以ViT进行视觉表征的多模态模型1（BLIP、BLIP-2、InstructBLIP）

- CLIP和BLIP的区别： - CLIP：通过对比学习联合训练，预测图像和文本之间的匹配关系。即使用双塔结构，分别对图像和文本编码，然后通过计算cos进行图文匹配。 - BLIP：包括两个单模态编码器（图像编码器和文本编码器）、一个图像基础的文本编码器和一个图像基础的文本解码器。BLIP通过联合训练三个损失函数：图像-文本对比损失（ITC）、图像-文本匹配损失（ITM）和语言建模损失（LM），以实现多任务学习和迁移学习。 - 训练方式的区别：除了对比学习，BLIP还采用了一种高效率利用噪声网络数据

2024-07-01 21:53:49 1425 1

原创【LLM】GLM系列模型要点

No Bias Except QKV：为了提升训练速度，我们去除了所有偏差项，除了注意力层中的查询（Query）、键（Key）和值（Value）偏差。这一变化略微改善了长度外推法的性能。RMSNorm 和 SwiGLU：我们用RMSNorm替换了LayerNorm，并用SwiGLU替换了ReLU。这两种策略能够提升模型性能。旋转位置嵌入（RoPE）：我们将RoPE扩展到二维形式，以适应GLM中的二维位置编码。分组查询注意力（GQA）：我们用GQA替换了传统的多头注意力（MHA），以减少推理过程中

2024-06-24 19:58:45 1168

原创【智源大会2024】（一）智源技术专题

1.千万级数据集: BAAI创建了首个千万级别的高质量开源指令微调数据集。2.模型性能与数据质量: 强调了模型性能与数据质量之间的高度相关性。3.技术亮点: - 使用了高质量的指令数据筛选与合成技术。 - 这些技术显著提升了模型遵循指令的能力。4.性能比较: - 提到综合性能达到了GPT-4的水平。 - 1000条高质量数据微调的效果可以超过52,000条普通数据。5.数据集评估: - 使用了AlpacaEval和MT-Bench等评估工具来筛选数据。

2024-06-15 11:03:34 333

原创【多模态/CV】图像数据增强数据分析和处理

多模态大模型训练前，图片处理的常见操作：分辨率调整、网格畸变、水平翻转、分辨率调整、随机crop、换颜色、多张图片拼接等。ORB(Oriented FAST and Rotated BRIEF) 是一种计算机视觉中常用的特征检测算法,它将 FAST 关键点检测和 BRIEF 描述符生成结合起来，同时引入了方向性和尺度不变性。使用 ORB 进行特征检测可以有以下几个应用:- 目标识别:在多幅图像中检测相同的ORB 特征点,并通过这些点的匹配确定目标物体的位置和方向- 图像匹配:在两幅图像中检测 ORB 特

2024-06-08 11:41:19 1212 7

原创【LLM】度小满金融大模型技术创新与应用探索

在数据准备完之后，就要去做预训练。需要针对中文场景做词表构建，对此，行业内大概有两种解决方案。一种是通过字粒度去扩充，因为汉字只看一个单词的话相对有限，大概数量是 5K 到 8K。另外一种就是很多中文大模型所采用的方法，即大量引入中文词汇，这样词表会比较大。考虑到对原有模型要尽量减少破坏，所以我们最终采用了字粒度扩容的方式，加入了 7K 的中文字符。这使得我们的整个词表大小达到 39K，词表压缩率为 48%。在预训练阶段词表优化完之后，训练采用的是两阶段的优化方式，使得收敛更加稳定。第一阶段主要还是解决

2024-06-06 00:21:26 811

原创【LLM】两篇多模态LLM综述MultiModal Large Language Models

note（一）现有的 MM-LLM 的趋势：(1)从专门强调 MM 理解对特定模态的生成的进展，并进一步演变为任何到任何模态的转换（例如，MiniGPT-4 → MiniGPT-5 → NExT-GPT）；(2) 从 MM PT 提升到 SFT，然后到 RLHF，训练管道进行连续细化，努力更好地与人类意图对齐并提高模型的会话交互能力（例如，BLIP-2 → InstructBLIP →DRESS）；(3) 实施多样化模态扩展（例如，BLIP-2 → X-LLM 和 InstructBLIP→X-In

2024-06-02 13:05:46 2027 8

原创【LLM多模态】多模态LLM在图表处理的应用

在真实场景下，我们进行测试，多模态大模型在处理显著文本时表现尚可，但在处理细粒度文本时往往效果并不太好，why?具体原因如下：首先，视觉编码器的分辨率对于多模态大模型的性能影响较大，由于视觉信息往往包含大量的细节和复杂性，因此需要高分辨率的编码器来捕捉这些细节。但是，高分辨率编码器的计算成本也相应较高，这会限制模型的训练速度和效率。其次，现有的模型主要依赖于大规模的预训练数据集进行训练，而这些数据集往往只包含一些大规模常规或者合成的图像和文本，比如论文arxiv。因此，这些模型可能无法很好地处

2024-05-26 17:32:24 903

原创【LLM多模态】综述Visual Instruction Tuning towards General-Purpose Multimodal Model

新加坡-南洋理工大学发的paper，2023年12月我们还是从十大问题分析这篇论文，但由于是综述，可能没有实验环节详细的部分。# 1. 论文试图解决什么问题- 一篇关于Visual Instruction Tuning 视觉指令微调任务的综述，Visual Instruction Tuning是为了让多模态LLM拥有指令遵循能力- 文章介绍传统CV局限性（需要针对不同任务训练不同模型，缺乏交互能力），如下图左侧。- 文章从三方面介绍Visual Instruction Tuning的发展过程：单语言

2024-05-26 14:36:31 945

原创【LLM多模态】LLava模型架构和训练过程 | CLIP模型

CLIP使用了对比学习的方法，即通过正样本（匹配的图像-文本对）和负样本（不匹配的图像-文本对）来训练模型。在训练过程中，模型会尝试最大化正样本对的相似度（比如通过计算余弦相似度），同时最小化负样本对的相似度。CLIP模型在zero-shot学习中表现强大，可以直接用于zero-shot推理，比如将猫的图片emb后，将猪狗猫等类的文本描述也分别emb，计算图片和类别emb之间的相似度，从而进行分类。CLIP-ViT-L/14模型的14表示每个patch的分辨率为14X14，比如在224x224像素的图像

2024-05-23 23:17:11 12223 4

原创【LLM多模态】多模态LLM的EMT灾难性遗忘评估框架

# note- 当前很多MLLM多模态大模型，用于视觉问答-聊天机器人，很少评估图片分类能力。在领域SFT数据微调后，EMT框架是评估微调后模型在几个分类数据集上效果，来评估是否出现灾难性遗忘- 实验现象：多数微调后模型的效果，比基础视觉编码器CLIP分数更低。评估的模型：用EMT来评估四个模型：LLaVA、Otter、LENS和InstructBLIP。- 微调实验结论：Lora微调比线性微调（微调线性适配器adapter）导致更多遗忘

2024-05-20 22:45:51 679

原创处理DecompressionBombWarning: Image size (101896752 pixels) exceeds limit of 89478485 pixels

# 一、问题描述有如下的警告。这是因为Pillow默认设置了一个最大图像处理像素限制，目的是防止巨大图像的处理消耗过多的内存，可能导致拒绝服务攻击（DOS）。```python# warning如下：DecompressionBombWarning: Image size (101896752 pixels) exceeds limit of 89478485 pixels, could be decompression bomb DOS attack.```# 二、解决方案方法一：增加像

2024-05-09 00:15:18 469 1

原创【LLM多模态】MiniGPT4模型架构和训练流程

- 图生文应用场景：比如电商领域根据产品图像生成产品描述、娱乐领域中根据电影海报生成电影介绍等- MiniGPT-4将预训练的大语言模型和视觉编码器参数同时冻结，只需要单独训练线性投影层，使视觉特征和语言模型对齐。- MiniGPT4的视觉编码器：使用了与BLIP-2相同的预训练视觉语言模型，该模型由2个部分组成： - 视觉编码器ViT（vision transformer）：提取图像中的基本视觉特征。miniGPT-4使用了EVA-CLIP中的ViT-G/14进行实现（初始化该模块的代码如下） -

2024-05-02 09:14:45 1512

原创【LLM硬件】V100、A100、A800、H100参数对比

NVIDIA GPU 的核心参数：CUDA Core：CUDA Core 是 NVIDIA GPU上的计算核心单元，用于执行通用的并行计算任务，是最常看到的核心类型。NVIDIA 通常用最小的运算单元表示自己的运算能力，CUDA Core 指的是一个执行基础运算的处理元件，我们所说的 CUDA Core 数量，通常对应的是 FP32 计算单元的数量。Tensor Core：Tensor Core 是 NVIDIA Volta 架构及其后续架构（如Ampere架构）中引入的一种特殊计算单元。它们专门用于

2024-04-27 14:17:55 1065 2

原创【LLM多模态】Qwen-VL模型架构和训练流程

Qwen-VL模型的整体网络架构包括以下三个组件：大型语言模型（Large Language Model）：- 作用：作为Qwen-VL模型的基础组件，这个部分采用了一个大型语言模型，其初始权重来自于预训练的Qwen-7B模型。- 来源：Qwen-VL的大型语言模型使用了来自Qwen-7B模型的预训练权重。视觉编码器（Visual Encoder）：- 作用：视觉编码器采用了Vision Transformer（ViT）架构，用于处理输入图像并生成一组图像特征。在训练和推理过程中，将输入图像调

2024-04-25 22:39:54 5765 2

原创解决报错OSError: cannot write mode RGBA as JPEG

# 一、问题描述如题：解决报错OSError: cannot write mode RGBA as JPEG，这个错误是在下面代码中出现的：```pythonfrom PIL import Image# 打开图片root_path = "xx"this_image_path = root_path + "example3/4.png"img = Image.open(this_image_path) # .convert('RGB')this_save_path = root_path +

2024-04-08 21:13:28 1307

原创【LLM多模态】CogVLM图生文模型架构和训练流程

Cogvlm模型共包含四个基本组件：ViT 编码器，MLP 适配器，预训练大语言模型（GPT-style）和视觉专家模块。- ViT编码器：在 CogVLM-17B 中，采用预训练的 EVA2-CLIP-E。也就是上图将图片进入vit encoder编码。在CogVLM-17B中，移除了ViT编码器的最后一层，因为该层专注于整合[CLS]特征以用于对比学习。- MLP 适配器：MLP 适配器是一个两层的 MLP（SwiGLU），用于将 ViT 的输出映射到与词嵌入的文本特征相同的空间。注：所有的图像特

2024-03-24 16:29:49 5441 2

原创解决nvidia-smi无进程，但GPU显存被占用的情况

# 一、问题描述如题，解决nvidia-smi无进程，但GPU显存被占用的情况。# 二、解决方案```python# 查看没有显示出来的进程fuser -v /dev/nvidia*# Kill掉sudo kill -9 pid```如果要`kill`的进程特别多，可以用以下的python脚本：```pythonimport ospid = list(set(os.popen('fuser -v /dev/nvidia*').read().split()))kill_cmd =

2024-03-24 10:35:44 967 1

原创【LLM】LLama2模型（RMSNorm、SwiGLU、RoPE位置编码）

预训练语言模型除了自回归（Autoregressive）模型GPT，还有自编码模型（Autoencoding）BERT[1]、编-解码（Encoder-Decoder）模型BART[67]，以及融合上述三种方法的自回归填空（Autoregressive Blank Infilling）模型GLM（General Language Model）[68]。ChatGPT的出现，使得目前几乎所有大语言模型神经网络结构趋同，采用自回归模型，基础架构与GPT-2相同，但在归一化函数、激活函数及位置编码等细节方面有所

2024-03-16 22:18:56 2238 1

原创【LLM加速】注意力优化（基于位置/内容的稀疏注意力 | flashattention）

note（1）近似注意力：Routing Transformer采用K-means 聚类方法，针对Query和Key进行聚类，类中心向量集合为其中k 是类中心的个数。每个Query 只与其处在相同簇 (Cluster) 下的Key 进行交互。Reformer 则采用局部敏感哈希 (Local-Sensitive Hashing，LSH) 的方法为每个Query 选择Key-Value 对。其主要思想是使用LSH 函数对

2024-03-16 17:15:49 1392

原创【他山之石】BlueLM蓝心大模型的落地

# note- 预训练：我们采用了混合精度训练以及梯度缩放策略，因为这可以减少训练周期，训练周期较少会节省模型训练所需的时间和资源。选择回放训练能够让模型定向学会一类知识信息。Loss 预测确保在训练过程前对损失进行估计，以保证训练过程中的损失符合我们的预期，最终收敛较好的结果。- SFT微调：采用了“target only loss”方法，并通过聚类分析对指令进行了适应性处理，以更好地确保模型的均衡性。- RLHF对齐：人类价值对齐阶段，我们采用了离线采样策略和双重奖励模型等策略，会在安全性上明显提

2024-03-14 00:29:44 1266

原创【LLM】Advanced rag techniques: an illustrated overview

RAG中的智能体(Agents in RAG)OpenAI 助手基本上整合了开源 LLM 周边工具——聊天记录、知识存储、文档上传界面。最重要的能力还是function call。在 LlamaIndex 中，有一个 OpenAIAgent 类将这种高级逻辑与 ChatEngine 和 QueryEngine 类结合在一起，提供基于知识和上下文感知的聊天，以及在一个对话轮次中调用多个 OpenAI 函数的能力，这真正实现了智能代理行为。【栗子】多文档智能体在每个文档上初始化一个Agent（Open

2024-03-10 18:04:01 1382

原创【RAG】Chain-of-Verification Reduces Hallucination in LLM

相关工作大多数减少幻觉的方法大致可分为三类：训练时校正、生成时校正和使用工具。在训练时校正方法中：尝试通过训练或以其他方式调整模型权重以降低幻觉生成的概率来改进编码器-解码器或仅解码器语言模型的原始从左到右生成。这包括使用强化学习（Roit et al., 2023；Wu et al., 2023）、对比学习（Chern et al., 2023b；Sun et al., 2023b）和其他方法（Li et al., 2023）。在生成时校正中：一个共同的主题是在基础 LLM 的“之上”做出推理决策

2024-03-10 16:37:07 1308

基于高阶和时序特征的图神经网络社会推荐研究

EdgeRec边缘计算在推荐系统的应用

4-消息传递图神经网络.pdf

常用算法总结C&C++.pdf

Python思维导图.rar

空空如也