程序员学习Chat-CSDN博客

原创学习、考研、求职面试笔试、工作：算法工程师的资料库(持续更新中)

学习、考研、求职面试笔试、工作：算法工程师的资料库(持续更新中)

2026-01-31 11:12:55 472

原创大模型应用开发-2 上下文工程

本文探讨了大模型应用开发中的上下文工程理论。上下文工程通过动态组合系统提示词、外部知识、工具定义等六类信息，优化大模型的条件概率输出。相比静态提示词工程，上下文工程将输入视为动态信息组合，以最大化任务相关信息的互信息。文章详细阐述了上下文获取（提示工程、知识检索、动态组装）、处理（超长序列、多模态、结构化数据处理）和管理（记忆机制、压缩技术）三大环节。其中，处理环节通过注意力机制优化等方法提升信息价值密度，管理环节则突破上下文窗口限制。研究表明，有效组织上下文信息能显著提升大模型的任务表现，是智能体系统开发

2026-04-05 09:23:51 364

原创多模态-11 Qwen2-VL

Qwen2-VL是Qwen-VL的升级版多模态模型，主要改进包括：支持任意分辨率图像输入、扩展视频处理能力、增加多语言支持（日语、韩语等8种语言）以及提升视觉任务范围。模型结构由视觉编码器和语言大模型组成，采用2D-RoPE和M-RoPE技术处理时空信息。训练采用三阶段方法，使用包含1.4T token的高质量多模态数据集。Qwen2-VL提供2B、8B和72B三种参数规模版本，适用于不同应用场景。该模型在图像理解、视频处理、多语言支持等方面展现出显著性能提升。

2026-02-04 13:57:59 476

原创多模态-10 Qwen-VL

本文介绍了千问系列的多模态模型Qwen-VL，重点阐述了Qwen-VL的创新架构和训练方法。该模型采用ViT图像编码器、视觉-语言适配器和Qwen7B语言模型的组合结构，通过[img]、[box]、[ref]等特殊标记实现图像特征与文本的语义对齐。模型训练分为预训练、多任务预训练和监督微调三个阶段，支持中英双语理解、图像定位和OCR等任务。Qwen-VL通过创新的标记机制和分阶段训练策略，在多个评测数据集上取得了当时最优的开源模型效果，为多模态任务提供了强大的解决方案。

2026-02-03 08:47:26 569

原创多模态-9 SAM

本文介绍了通用分割模型SAM（Segment Anything）的基础原理与架构。SAM通过结合图像编码器、提示编码器和分割掩码解码器，实现了基于用户交互提示（点、框、文本或掩码）的任意物体分割能力。模型采用ViT作为图像编码器，并构建了包含1100万张图片的SA-1B训练数据集。针对SAM存在的推理速度慢和体积大的问题，衍生出了FastSAM和FasterSAM等优化版本，后者运用知识蒸馏技术实现轻量化。该研究突破了传统分割模型的局限性，使模型具备分割训练集外物体的泛化能力。

2026-02-02 11:37:47 672

原创多模态-8 YOLO World

YOLO-World是一种轻量级开放集合目标检测模型，基于YOLOv8架构，结合CLIP文本编码器实现多模态检测。相比GroundingDINO，它更适用于已知类别的开放检测场景，通过Vision-Language PAN实现图文特征对齐，在消费级显卡上可达70+FPS。模型采用YOLO主干网络提取图像特征，CLIP编码文本类别，最终输出检测框和类别预测。其创新点在于高效处理预定义类别列表，而非自由文本描述，更适合特定应用场景。

2026-02-01 10:24:25 322

原创多模态-7 Grounding DINO

摘要：GroundingDINO是一种创新的多模态目标检测模型，通过融合图像和文本特征实现开放集合检测。模型采用四阶段架构：1)双编码器提取图像和文本特征；2)交叉注意力增强模态对齐；3)基于相似度的Top-k特征筛选；4)DETR式解码生成检测结果。创新性地引入文本引导的特征查询机制，从10,000个视觉特征中筛选900个最相关特征。实验表明，该模型在保持实时推理速度(46FPS)的同时，显著提升了开放域检测性能，将传统目标检测扩展为语义驱动的问答式检测范式。

2026-01-31 11:11:23 797

原创多模态-6 LLaVA

本文介绍了多模态模型LLaVA的核心技术和特点。LLaVA基于开源模型LLaMA，通过精心构建高质量训练数据和简洁模型结构实现优异性能。重点阐述了其数据构建方法：利用CoCo数据集作为种子，结合GPT-4生成多维度文本描述，最终形成15.8万条训练数据。模型结构采用CLIP作为图像编码器，通过简单线性投影层将图像特征映射到文本空间，与Vicuna语言模型结合。训练分两阶段：先训练投影层，再微调整体模型。LLaVA的成功体现了"高质量数据+简洁架构"的技术路线优势。

2026-01-29 09:38:38 681

原创多模态-5 BLIP2

BLIP2是一种创新的多模态模型，通过插入QueryFormer(Q-Former)模块实现预训练图像编码器和语言大模型的高效对接。该模型采用两阶段训练：首先进行视觉-文本表示训练，通过ITC、ITM和ITG三种任务学习图像与文本的语义对齐；随后进行视觉-文本生成训练，将提取的视觉特征转换为语言模型的软提示。这种方法避免了从头训练编码器，支持灵活替换不同图像/文本编码器，显著提升了模型效率和灵活性。训练过程中语言大模型保持冻结，仅优化Q-Former参数，实现了轻量化的多模态学习方案。

2026-01-28 15:41:25 620

原创多模态-4 CoCa

本文介绍了多模态模型CoCa（Contrastive Captioners）的创新架构与训练方法。该模型基于Transformer，通过结合对比学习和文本生成任务，实现了图像理解与内容生成的统一。模型采用ViT作为图像编码器，并创新地将Decoder分为单模态文本解码和多模态文本生成两部分，分别处理全局语义理解和细粒度特征生成。训练过程同时优化对比损失和文本生成交叉熵损失，无需动量编码器即可取得良好效果。文章还探讨了生成式任务在图文对齐中的有效性问题，指出CoCa通过注意力池化层实现了不同粒度特征的有效融合

2026-01-27 17:00:51 575

原创多模态-3 BLIP

BLIP是一个多模态模型，通过ViT编码图像，结合ITC（对比学习）、ITM（匹配分类）和LM（文本生成）三个任务实现图像理解与生成。模型共享层结构以减少参数量，训练时采用动量编码器和难样本挖掘提升效果。实验验证了其在多模态任务中的性能，并探讨了数据处理和评测指标。

2026-01-26 16:56:20 598

原创多模态-2 CLIP

CLIP是一种突破性的多模态模型，通过对比学习将图像和文本映射到共享语义空间，实现强大的零样本识别能力。其核心思想是训练图像编码器（ViT/ResNet）和文本编码器（BERT类）来提取语义相似的特征，通过最大化正确图文对的相似度进行训练。CLIP使用4亿规模的网络图文数据集WIT，采用超大batch（32768）的对比学习策略。相比传统判别模型，CLIP无需重新训练即可适应新类别，展现出卓越的泛化能力。实验表明其在多种任务上表现优异，但需要海量训练数据。中文版ChineseCLIP通过调整文本编码器实现了

2026-01-25 12:26:58 607

原创多模态-1 基础理论

本文介绍了多模态模型的基础知识，包括核心概念、模态表示、融合与对齐方法以及典型应用。主要内容涵盖：1）多模态的核心概念（模态、语义空间、对齐与融合）；2）文本、视觉和声音三大模态的表示方法；3）数据级、特征级和目标级三种模态融合策略；4）显式与隐式两种模态对齐方式；5）多模态理解、检索和生成三大应用场景。文章强调多模态技术旨在让计算机具备类似人类的跨模态综合感知能力，通过将不同模态信息映射到统一语义空间，实现更全面的认知与交互。

2026-01-18 22:13:30 716

原创计算机视觉Transformer-3 自监督模型

摘要：本文介绍了Transformer在计算机视觉自监督学习中的应用。首先对比监督学习和无监督学习，指出自监督学习通过设计伪标签任务来预训练特征提取器。重点分析了两种方法：MAE通过随机mask 75%图像块并重建来学习细粒度语义；DINO采用自蒸馏策略，使用教师-学生网络架构和防坍塌机制学习全局特征。最后提到DINOV2结合了MAE和DINO的优势，利用向量数据库构建大规模数据集进行多任务训练。这些方法有效减少了人工标注依赖，推动了视觉Transformer的发展。

2026-01-02 11:19:39 864

原创大模型应用开发-向量数据库

本文介绍了大模型应用开发中常用的向量数据库工具，重点阐述了其在高维数据管理方面的优势。文章首先解释了高维向量数据的特点和处理难点，对比了传统数据库与向量数据库的区别。然后详细介绍了向量嵌入空间评估方法（t-SNE和UMAP）以及主流向量索引结构（HNSW、IVF-PQ等）。最后以FAISS为例，展示了向量数据库的实际应用，包括索引构建和查询策略。向量数据库通过高效存储和检索高维向量，为大模型应用开发提供了重要的持久化支持。

2025-12-31 20:19:50 619

原创计算机视觉Transformer-2 目标检测

本文系统介绍了基于Transformer的目标检测模型发展历程。首先分析DETR如何通过集合预测思想替代传统CNN检测方法，详细解析其Encoder特征编码和Decoder目标解码机制，以及匈牙利算法实现的损失计算。随后探讨Deformable DETR的两大改进：可分离注意力机制降低计算复杂度，多尺度特征融合提升小目标检测效果。最后介绍RT-DETR的创新设计，包括两阶段查询机制、高层特征注意力计算和多尺度特征融合模块。这些工作展现了Transformer在目标检测领域的优势与发展方向。

2025-12-28 15:18:25 1251

原创计算机视觉Transformer-1 基础结构

本文介绍了计算机视觉中Transformer架构的基础模型（Backbone）。首先解析了ViT的核心思想：将图像分割为16×16的块（Patch）作为输入序列，通过Transformer处理图像分类任务，并采用位置编码和[cls]标记获取全局特征。接着探讨了PVT通过特征金字塔实现多尺度特征提取，适用于检测和分割任务。然后分析了SwinTransformer的创新窗口注意力机制，通过交替使用窗口和移动窗口注意力降低计算复杂度并提升性能。最后介绍了DeiT利用知识蒸馏方法解决ViT对小数据集的依赖问题，通过

2025-12-26 16:34:27 1017

原创深度学习基础-5 注意力机制和Transformer

本文系统介绍了Transformer网络架构及其核心组件。首先概述了深度学习的四大基础架构：前馈神经网络、卷积神经网络、循环神经网络和Transformer。重点解析了Transformer的核心机制——注意力计算原理及其多头注意力实现方式，详细阐述了Encoder和Decoder的结构设计，包括位置编码、残差连接等关键技术。文章还探讨了Transformer在输入处理（如mask机制）、位置编码改进、注意力优化等方面的拓展研究，并指出其在多模态处理、长序列建模等领域的应用潜力。Transformer凭借其

2025-12-25 16:29:05 903

原创大模型应用开发-Langchain(V1-最新版)-下

本文介绍了LangChain最新版(V1)在大模型应用开发中的核心功能与实现方法。主要内容包括：1) 工具调用机制，详细讲解@tool装饰器、StructuredTool和BaseTool三种工具封装方式；2) Agent构建方案，重点介绍基于LangGraph的工作流实现和传统Prompt方式构建ReAct智能体；3) 回调处理机制，对比事件流和handler函数两种回调方式。文章通过完整代码示例展示了如何使用ChatTongyi模型进行工具绑定、执行流程控制及结果处理，体现了新版LangChain显式控

2025-12-22 13:40:18 790

原创大模型应用开发-Langchain(V1-最新版)-中

本文介绍了大模型应用开发中LangChain框架的关键技术，重点讲解了检索器和记忆系统两大核心功能。在检索器部分，详细阐述了文档嵌入与向量存储的实现方法，包括普通检索、检索器融合、上下文压缩、元信息查询、父文档回溯和多维度检索等多种检索策略，并提供了Python代码示例。在记忆系统部分，介绍了基础会话记忆、带上下文裁剪记忆、摘要式记忆、RAG增强记忆和知识图谱记忆五种记忆机制，展示了如何有效管理和利用对话历史信息。文章通过实际代码演示了如何结合阿里云DashScope API和LangChain框架构建智能

2025-12-21 18:12:50 858

原创大模型应用开发-Langchain(V1-最新版)-上

大模型应用开发-langchain(V1最新版)-上部分

2025-12-17 21:29:00 860

原创大模型应用开发-基础理论

大模型应用开发：1.CoT2.零样本推理能力3.ToT4.Toolformer5.Plan and Solve 6.ReAct7.AgnetVerse8.AutoGen

2025-12-14 09:04:07 951

原创大模型训练-流水线并行/张量并行/ZeRO/Prefix/Prompt tunning/LoRA

大模型训练：1.流水线并行2.张量并行3.ZeRO4.Prefix/Prompt tunning5.LoRA

2025-12-09 22:40:07 921

原创大模型基础理论-BPE/DeepNorm/FlashAttention/GQA/RoPE

大模型基础理论介绍：1.BPE分词2.DeepNorm3.FlashAttention4.GQA5.RoPE

2025-12-06 07:54:07 1235

原创计算机视觉-目标检测

计算机视觉-目标检测相关知识点

2025-04-20 13:00:32 398

原创数字图像处理

数字图像处理相关基础知识点梳理

2025-04-08 14:09:26 740

原创从零开始安装Hadoop

目录一新建虚拟机二设置固定IP三检验3.1 查看虚拟机能否Ping通我们设置的IP地址3.2 查看虚拟机能否连通外网3.3 查看主机能否Ping通我们的虚拟机四 SSH无密登陆、远程连接、关闭防火墙五安装JDK六本地模式6.1 参数配置6.2 验证七伪分布式模式八完全分布式模式8.1 /etc/hadoop/hadoop-env.sh8.2 /etc/hadoop/yarn-env.sh8.3 /etc/hadoop/slaves

2022-05-05 08:55:39 1945

原创如何利用PyTorch实现一个Encoder-Decoder结构进行英法互译

数据集下载地址：https://download.pytorch.org/tutorial/data.zipdownload.pytorch.org数据集在eng-fra.txt文件中，每一行是一对儿英语和法语之间的互译。运行以下代码，请确保PyTorch=1.9.0torchtext=0.10.0Encoder中的数据流：Decoder中的数据流：带有注意力机制Decoder的数据流:# Encoder-Decoder实..

2022-05-05 08:54:04 1853 1

原创蓝桥杯-第七届蓝桥杯C语言A组/B组/C组-Python题解

目录网友年龄生日蜡烛密码脱落最大比例煤球数目平方怪圈冰雹数网友年龄某君新认识一网友。当问及年龄时，他的网友说：“我的年龄是个2位数，我比儿子大27岁,如果把我的年龄的两位数字交换位置，刚好就是我儿子的年龄”请你计算：网友的年龄一共有多少种可能情况？提示：30岁就是其中一种可能哦.请填写表示可能情况的种数。注意：你提交的应该是一个整数，不要填写任何多余的内容或说明性文字。def juage(x): x=str(x) y=

2022-05-05 08:53:38 1057

原创蓝桥杯-第六届蓝桥杯C语言A组/B组/C组-Python题解

目录方程整数解星系炸弹奇妙的数字牌型种数手链样式饮料换购奖券数目三羊献瑞加法变乘法隔行变色立方尾不变方程整数解方程: a^2 + b^2 + c^2 = 1000这个方程有整数解吗？有：a,b,c=6,8,30 就是一组解。你能算出另一组合适的解吗？请填写该解中最小的数字。注意：你提交的应该是一个整数，不要填写任何多余的内容或说明性文字。flag=Falsefor i in range(1,101): for j in

2022-05-04 10:45:02 1483

原创 2019 CVPR 《Selective Kernel Networks》 PyTorch实现

import numpy as npimport torchfrom torch import nnfrom torch.nn import initfrom collections import OrderedDict# selective kernel attention# 多个卷积核的通道注意力# 方法出处 2019 CVPR 《Selective Kernel Networks》class SKAttention(nn.Module): # 初始化层 def _.

2022-05-04 10:37:56 418

原创如何用PyTorch训练一个Transformer语言模型学习词嵌入

Transformer模型出处2017 《Attention is all you need》Transformer中的位置编码是什么意思？https://kazemnejad.com/blog/transformer_architecture_positional_encoding/kazemnejad.com运行以下代码请确保：PyTorch=1.9.0torchtext=0.10.0否则肯定报错import mathfrom typing import Tu.

2022-05-04 10:36:39 1944 1

原创如何利用PyTorch编写一个循环神经网络进行字符串的分类

数据集下载地址：https://download.pytorch.org/tutorial/data.zipdownload.pytorch.org数据集中包含18个文件，分别为18个国家中常用的名字，每一行是一个当前国家常用名字字符串。我们要搭建一个循环神经网络（RNN），将一个名字字符串输入到RNN中，让RNN告诉我们这个名字是属于那个国家的（分类问题）。运行以下代码，请确保：PyTorch=1.9.0torchtext=0.10.0from __future__ imp

2022-05-04 10:24:46 673

原创 PyTorch的torchvision中带有的计算机视觉数据集

目录1.caltech1012.caltech2563.celeba4.cifar105.cifar1006.cityscapes7.coco8.emnist9.FakeData10.fashionMNIST11.flickr8k12.hmdb5113.imagenet14.kinetics40015.kitti16.kmnist17.lsun18.mnist19.omniglot20.phototour21.place

2022-05-04 09:32:07 3201

原创蓝桥杯-第九届蓝桥杯C语言A组/B组/C组-Python题解

#等比数列求和，然后约分temp=pow(2,20)a=2*(temp-1)b=temp#求最大公约数def gcd(a,b): return gcd(b,a%b) if b!=0 else anumber=gcd(a,b)print(str(a//number)+'/'+str(b//number))#判断闰年def isLeapYear(n): if (n%4==0 and n%100!=0) or (n%400==0): ret...

2022-05-04 09:10:33 3092

原创蓝桥杯-15年，16年国赛 Python题解

目录15年方格填数四阶幻方穿越雷区切开字符串16年随意组合路径之谜15年方格填数在2行5列的格子中填入1到10的数字。要求：相邻的格子中的数，右边的大于左边的，下边的大于上边的。如图所示的2种，就是合格的填法。请你计算一共有多少种可能的方案。请提交该整数，不要填写任何多余的内容（例如：说明性文字）。# 方案数ans = 0# 方格，多申请防止填充时越界grid = [[0] * 10 for i in range(3)]#

2022-05-04 09:00:06 756

原创 2018 CVPR 《Squeeze-and-Excitation Networks》 PyTorch实现

import numpy as npimport torchfrom torch import nnfrom torch.nn import init# SE-attention# 方法出处 2018 CVPR 《Squeeze-and-Excitation Networks》# 该方法用于捕获特征图之间的关系class SEAttention(nn.Module): # 模型层的初始化 def __init__(self, channel=512, reduction.

2022-05-04 08:43:57 303

原创 Pandas的入门使用

目录一，Python，Numpy基础二，Pandas基础三.索引四，分组五，变形六，连接七，缺失数据的处理八，文本数据的处理九，分类数据十，时间序列数据处理推荐一个学习Pandas的网站 Joyful Pandas 1.0 documentation一，Python，Numpy基础列表推导式[m+'_'+n for m in ['a', 'b'] for n in ['c', 'd']][i if i <= 5 else 5 for i

2022-05-03 17:12:53 1040

原创机器学习模型原理及代码

目录一什么是线性模型1.1 定义1.2 回归和分类的转换1.3 几何解释二线性回归2.1 定义2.2 参数学习方法三 Logistic回归3.1 定义3.2 参数学习方法四 SoftMax回归4.1 定义4.2 参数学习方法五感知机5.1 定义5.2 参数学习方法六支持向量机6.1 定义6.2 核函数和核方法6.3 参数学习方法七 Numpy实现代码7.1 Logistic回归7.2 SoftMax回...

2022-05-03 17:04:08 1094

原创蓝桥杯-第十一届蓝桥杯大赛第二次模拟（软件类）真题-Python题解

1.在计算机存储中，12.5MB是多少字节？：1GB=1024MB，1MB=1024KB，1KB=1024B2.一个包含有2019个结点的有向图，最多包含多少条边？（不允许有重边）：完全图时边最多，2019*（2019-1）3.将LANQIAO中的字母重新排列，可以得到不同的单词，如LANQIAO、AAILNOQ等，注意这7个字母都要被用上，单词不一定有具体的英文意义。请问，总共能排列如多少个不同的单词。string='LANQIAO'from itertools import

2022-05-03 16:46:11 377

空空如也

空空如也