威化饼的一隅-CSDN博客

原创【多模态】qwen3-vl的强化微调

基于ms-swift强化微调qwen3-vl

2025-10-27 23:31:04 1341 1

原创【多模态】使用LLM生成html图表

画图工具调用，实现一些画图函数，LLM生成对应的参数来调用，这种方式需要实现丰富的图表函数直接输出画图的结果表示(html、mermaid等)，再存储为图片格式LLM输出取数画图的代码，执行代码得到图表结果。

2025-08-31 10:50:19 632

原创【大模型LLM学习】Research Agent学习笔记

本文介绍了两种研究型智能体(Research Agent)的架构设计——Search-O1和MetaGPT的Researcher

2025-08-24 13:19:57 898

本文系统分析Data Agent的核心框架与实现方案，梳理四种主流Agent编排框架：ReAct的"思考-行动-观察"循环、Plan-and-execute的任务分解与调度、Reasoning Without Observations的单次计划生成及LLMCompiler的并行化技术。重点探讨ModelScope Data Agent的四模块设计（规划、执行、内存管理、调度），其Kaggle测试表现优异。各框架在任务分解、执行效率及结果确定性方面各具优势，为高效Data Agent开发提供关键技术参考。

2025-08-24 12:40:17 993

原创【多模态】天池比赛记录——CCKS25工业技术文档多模态推理问答评测

多模态大模型比赛记录

2025-08-09 11:42:18 785

原创【多模态】DPO学习笔记

DPO学习笔记

2025-08-02 15:14:38 500

原创【多模态】天池AFAC赛道四-智能体赋能的金融多模态报告自动化生成part2-报告输出

本文介绍了天池AFAC赛道四"智能体赋能的金融多模态报告自动化生成"任务的技术方案。该任务要求开发能自动生成三类金融研报（宏观经济/行业/公司）的智能Agent系统，需满足多模态呈现、专业性、数据融合等要求。文章重点分享了任务拆解模块和RAG模块的实现方法：通过简化任务拆解流程，将研究任务分解为不超过10个独立子任务；采用RAG技术从收集的数据中精确定位相关数据块。方案以生成公司研报为例，展示了从股票基本信息收集到最终风险提示的完整子任务拆解流程，以及如何构建和检索结构化数据块。该方案通

2025-07-27 12:51:53 2095 6

原创【多模态】天池AFAC赛道四-智能体赋能的金融多模态报告自动化生成part1-数据获取

本文介绍了天池AFAC赛道四的任务要求，即开发一个能自动生成三类金融研报（宏观经济、行业、公司）的智能Agent系统。任务要求系统具备多模态输出、专业性、数据融合和格式规范等特点，并详细说明了三类研报的具体分析要求。文章还提供了数据处理框架和存储方法，以及从同花顺等平台获取公司基本信息和股价数据的技术方案。整体技术方案强调多Agent协同、泛化能力和创新技术应用，同时需遵守开源限制。

2025-07-27 12:44:05 1055

原创【大模型LLM学习】function call/agent学习记录

function call的学习记录（langchain+冷启动+微调）

2025-06-08 15:48:09 1006

原创【大模型LLM学习】Flash-Attention的学习记录

flash-attention学习笔记

2025-06-06 21:47:08 983

原创【大模型LLM学习】MiniCPM的注意力机制学习

MiniCPM的注意力机制学习记录，从MHA到MLA

2025-05-13 22:45:36 1148

原创【多模态】多模态模型的LLM端——qwen-1.0代码技术学习

现在的主流多模态模型都是ViT+merger+LLM的架构，之前一直把LLM模块当成一个黑盒，现在来从qwen1开始学习，记录学习过程～有一些非核心部分比如NTK、tokenizer、flash_attention之后再做了解。

2025-04-21 22:57:30 1020

原创【多模态大模型学习】位置编码的学习记录

大模型位置编码的学习记录

2025-02-26 23:06:05 1219 2

原创【大模型应用】langchain的使用学习记录

langchain的使用学习记录

2025-02-09 12:06:51 1332

原创【多模态】swift3使用——多模态模型的类lora的不同peft方式

swift框架支持的不同peft方式

2025-01-18 10:53:40 1712

原创【多模态】天池多模态比赛-多模态对话系统意图识别挑战赛

WWW2025多模态对话系统意图识别挑战赛记录

2025-01-18 09:29:26 1913 3

原创【多模态】internvl-2.5模型技术学习

internvl2.5学习记录

2025-01-15 23:08:52 1920

原创【多模态】qwen2-vl模型代码技术学习

qwen2-vl的学习记录

2025-01-15 23:06:29 3620 1

原创【多模态】从零学习多模态——学习笔记总结

2024快结束啦，半年抽空学了学多模态还挺好玩的，学习和踩坑记录记一下，方便大家少走弯路~

2024-12-29 21:21:35 1293 1

原创【多模态】多模态模型实践——swift3框架使用

swift3相比于swift2做了大升级，很多swift2能使用的在3里面error改改改…但是效率确实大升级，推理速度快了很多～～～

2024-12-21 14:32:49 2721

原创【多模态】swift框架使用qwen2-vl

前几篇里面学习了常见的一些多模态模型的典型架构和源代码，上一篇里面测试使用了minicpm-v系列模型，在尝试RLHF的时候发现swift特别好用特别全，记录一下对swift的一些使用，欢迎批评指正～前一篇里面写了minicpm-v的使用方法，这里主要记录qwen2-vl的使用。

2024-12-14 22:42:09 3580 4

原创【多模态】MiniCPM-V多模态大模型使用学习

前面学习了一些常见多模态模型的架构，现在开始学习使用minicpm-v-2.6模型，记录学习过程，欢迎批评指正～

2024-12-14 21:25:23 2327

原创【多模态】Flamingo模型技术学习

最近多模态模型特别火，从头开始学习！在前面写的几篇里面学习了MiniCPM-V、ViT、CLIP和BLIP/BLIP-2之后，今天学习一下Flamingo模型，记录学习过程，欢迎批评指正，一起学习~~

2024-11-23 15:40:30 2006

原创深度学习鲁棒性、公平性和泛化性的联系

对深度学习的鲁棒性、公平性和泛化性之间的联系的思考

2024-11-09 11:25:14 1365

原创线上模型准确率估计——在没有标签的测试数据上估计模型准确率

本地训练、验证数据有标签，但是模型上线后新来的数据均无标签，如何估计线上模型的准确率？

2024-11-09 10:49:44 1506

原创【多模态】BLIP-2模型技术学习

最近多模态模型特别火，从头开始学习！在前面写的几篇里面学习了MiniCPM-V、ViT、CLIP和BLIP之后，今天学习一下BLIP-2模型，记录学习过程，主要是模型架构、训练方式和相关源代码的理解。欢迎批评指正，一起学习~~

2024-11-09 09:25:32 2394 1

原创【多模态】BLIP模型技术学习

学习一下BLIP模型，记录学习过程，主要是模型架构、训练方式和相关源代码。欢迎批评指正，一起学习~~

2024-10-27 18:37:26 2734 1

原创【多模态】CLIP模型技术学习

CLIP多模态模型技术学习

2024-10-19 10:52:58 1884

原创【多模态】ViT模型技术学习

最近多模态模型特别火，一起从头学习ViT和Transformer！本文记录一下学习过程，所以是自上而下的写，从ViT拆到Transformer。

2024-10-10 23:31:23 4487 1

原创推理阶段不同batch size对大模型推理结果的影响

大模型推理阶段，进行batch inference批处理推理解码，会有什么问题吗？batch inference推理的结果居然会和一条一条推理结果差的很远？！！!

2024-09-21 11:52:14 4919 1

原创【多模态】多模态大模型MiniCPM-V技术学习

多模态大模型Minicpm-V-2.6参数8B，int4版本推理显存仅7GB，作为端侧大模型效果非常好，并且在幻觉数据集上效果优于其他模型，一起来学习为什么它这么强

2024-09-21 10:58:40 2228 2

原创 AI公平性研究进展（2022）

AI公平性近期研究的进展，欢迎补充

2022-12-09 11:07:42 2071

原创 Fairness-aware Adversarial Perturbation Towards Bias Mitigation for Deployed Deep Models[论文笔记]

CVPR 2022，对抗样本能用来提升AI公平性

2022-03-11 09:28:14 3619 2

原创 windows下styleGAN2和styleGAN3编译配置bug

styleGAN2和styleGAN3在windows下报错踩坑解决

2022-03-08 21:18:27 6181 26

原创计算机视觉公平性论文集合(2019-2021)

计算机视觉公平性论文列表(2019-2021)，欢迎补充

2021-12-18 10:57:34 3518

原创 Adversarial Visual Robustness by Causal Intervention论文笔记

Adversarial Visual Robustness by Causal Intervention论文阅读过程中的笔记

2021-12-11 15:23:09 1259

原创因果推理简介(causal inference)

简要介绍统计因果推理概念原理，包含结构因果模型的一些基本概念

2021-12-11 14:22:35 5933 1

原创梯度下降与支持向量机

SVM与SGD

2021-05-30 14:23:48 1807 8

原创机器学习公平性指标小结

文章目录前言一、Unawareness二、individual fairness三、group fairness1. disparate impact2. equal opportunity3. disparate mistreatment4. equal calibration总结前言机器学习系统中，如果模型的表现或模型的预测结果与敏感属性(性别、肤色等)有统计上的关联，那么这个机器学习系统就可能是不公平的：(1) Timbru等人发现一些商业的性别分类API中，白人的准确率明显高于有色人种；(

2021-05-27 19:01:03 5652 5

零基础入门多模态学习PPT

内容概要：本文档是一份面向零基础的学习笔记，详细介绍了多模态模型的基础理论和技术要点，主要包括以下几个方面：初识Transformer和NLP基础，深入讲解Vision Transformer (ViT)的工作原理及其代码实现；详细介绍CLIP模型，涵盖模型架构、代码结构和训练过程；解析BLIP、BLIP2、Flamingo、MiniCPM-V等多个先进的多模态模型，涵盖预训练、图文对比学习、图文匹配、文本生成等方面的技术细节。此外，文档还提供了动手实验指南，帮助读者在实践中加深理解。适合人群：初学者，尤其是对多模态模型感兴趣的科研人员、开发者。使用场景及目标：适用于希望快速入门多模态模型领域的学习者。通过对这些模型的理解和实践，读者能够掌握多模态模型的基本原理和实际应用，为进一步研究和开发打下坚实的基础。其他说明：文档不仅包含理论讲解，还提供了具体的代码示例和实践经验，适合结合代码进行学习。

2024-12-29

TA关注的人

零基础入门多模态学习PPT

因果推理简介，包括SCM、混杂、干预和工具变量等，及在公平性和防御对抗样本方面的应用

联邦学习之安全聚合SMPC.pptx

如何使用LLVM在基本块的入口和出口插入代码？

ubuntu16.04安装SElinux以后无法开机