自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(205)
  • 收藏
  • 关注

原创 大语言模型是零样本推理器 Large Language Models are Zero-Shot Reasoners

研究背景大模型是优秀的少样本学习器,思维链提示通过少样本分步样例,在算术/符号推理等系统2任务上取得SOTA,但被认为依赖少样本能力。核心创新提出:无需任何少样本样例,仅添加固定短句即可激活大模型的零样本推理能力。实验结论单一提示模板跨算术、符号、逻辑推理任务有效,在 text-davinci-002 和 PaLM-540B 上均实现大幅性能跃升;证明大模型预训练阶段已习得通用推理逻辑,简单提示即可解锁。研究价值提供了极简、高性能的零样本推理基线;

2025-12-15 10:46:39 547

原创 思维链:Chain-of-Thought Prompting Elicits Reasoning in Large Language Models

这篇摘要的核心是提出并验证了“思维链提示”核心理念:通过要求语言模型在给出最终答案前,先一步步地展示其推理过程(即“思维链”),可以大幅提升其在复杂任务上的表现。关键方法:这是一种简单的提示工程方法,只需在给模型的提问示例中,包含几个展示完整推理步骤的范例即可。主要发现这种方法能让足够大的模型**“涌现”**出强大的推理能力。它在算术、常识和符号推理等多种任务上都有效。效果非常突出,举例来说,用此方法提示一个超大规模模型(PaLM 540B),在数学解题任务上达到了当时的最优水平。

2025-12-12 18:30:48 783

原创 大模型提示词工程系统学习资料

大模型提示词工程系统学习指南 本资料系统介绍了提示词工程的核心理论与应用方法。主要内容包括: 基础理论:提示词工程本质是唤醒模型已有能力,而非教授新知识。 短提示词优势:复杂提示会增加任务熵,分散注意力,降低准确率。研究显示简单明确的提示更有效。 结构化方法:采用JSON/XML/DSL等结构化格式能显著提升任务确定性。 应用模式:重点介绍了抽取类、分类类和生成类三种典型任务模式。 稳定性机制:从数学角度解释提示词熵模型和注意力分散效应。 论文资源:按主题分类整理了20+篇权威论文,涵盖短提示有效性、结构化

2025-12-08 16:17:00 568

原创 什么是知识图谱

知识图谱是一种结构化表征现实世界实体及其关系的技术框架。其核心要素包括节点(实体)、关系(连接)和组织原则(分类框架),通过图数据库实现高效存储和查询。相比传统关系数据库和RDF三元组存储,原生属性图数据库在建模灵活性、查询性能和开发效率方面具有明显优势。知识图谱广泛应用于搜索引擎优化、企业数据整合和生成式AI等领域,通过上下文关联提升信息检索准确性和AI响应质量。典型应用包括Google知识面板、电子商务推荐系统和GraphRAG技术等,展现出从简单分类到复杂业务场景的广泛适用性。

2025-12-02 11:14:28 558

原创 大模型注意力综述(1)Efficient Attention Mechanisms for Large Language Models: A Survey

高效注意力机制综述:线性与稀疏方法助力长序列建模 本文系统梳理了Transformer架构中自注意力机制的优化方法,重点解决其二次复杂度带来的计算瓶颈。研究聚焦两大技术路线:线性注意力通过核近似、循环公式或快速权重实现线性复杂度;稀疏注意力则采用固定模式、块状路由或聚类策略减少计算量。文章详细分析了各类方法的算法原理、硬件适配性及其在大规模预训练模型中的应用,包括纯高效架构与混合设计。通过连接理论基础与部署实践,为构建可扩展的高效语言模型提供了系统化参考框架,推动长上下文处理技术的发展。

2025-12-02 08:30:00 1727

原创 LLM API 格式与调用方式指南(超清晰版)

特性描述消息格式messages 数组,含 role(system/user/assistant)多轮对话内置工具调用完整支持生态最强1. OpenAI 的 Chat API 已成为事实标准所有主流平台都要兼容它。2. 其他格式是为了不同需求(高吞吐、本地部署等)3. 企业内部系统一般都会支持 OpenAI 格式,让接入最轻松4. 你可以写一个统一适配器来兼容所有格式。

2025-12-01 09:51:31 800

原创 ragflow代码学习切片方式(1)docling_parser.py

枚举就像是一个固定的选项菜单,只能选择其中定义好的值。边界框就是用一个矩形框出文档中某个元素的位置。定义了一个名为的类继承自,意味着它拥有父类的所有功能,并可以扩展或重写定义了一个名为__images__的实例方法self: 指向当前对象实例的引用fnm: 文件名或文件内容,可以是字符串路径或字节数据: 缩放因子,默认值为1(原大小): 起始页码,默认从第0页开始: 结束页码,默认到第600页: 回调函数,用于进度通知等,默认为空:下划线开头表示这是内部方法。

2025-11-17 18:02:36 892

原创 操作系统 内存(5)虚拟内存机制

本文摘要:虚拟内存机制通过按需调页和页面置换,允许程序使用超出物理内存的空间。当访问未加载的页时触发缺页中断,操作系统从磁盘调入所需页,若内存已满则按LRU或Clock算法置换旧页。TLB作为页表的高速缓存,可加速地址转换,减少内存访问开销,配合多级页表提升性能。虚拟内存实现了"部分装入+动态调度"的机制,使有限物理内存能运行更多程序。

2025-11-09 22:00:00 1003

原创 操作系统 内存(4)了解内存管理的基本问题

分页机制通过将虚拟和物理内存划分为固定大小的页/帧,解决了内存碎片问题。页表记录虚拟页到物理帧的映射关系,TLB缓存加速地址转换。分页消除了外部碎片但存在页内碎片。分段机制则基于程序逻辑划分不同区域(代码、数据、栈等),保留逻辑结构但会产生外部碎片。现代操作系统通常结合两者优势:先按逻辑分段,再对每个段进行分页管理,兼顾系统高效和程序逻辑清晰。这种设计既解决了内存碎片问题,又保持了程序的可理解性。

2025-11-07 14:00:00 841

原创 操作系统 内存(3)理解内存的基本概念

早期计算机采用连续内存分配策略,主要包括单一连续分配、固定分区分配和动态分区分配三种方式。为解决碎片化和空间利用率问题,动态分区衍生出四种经典算法:首次适应算法(从低地址开始查找)、最佳适应算法(选择最小足够块)、最差适应算法(分割最大块)和循环首次适应算法(轮流查找)。这些算法在内存管理和碎片控制方面各有优缺点,需要根据实际场景权衡选择。理解这些基础分配机制是后续学习虚拟内存和分页技术的重要基础。

2025-11-06 14:00:00 669

原创 操作系统 内存(2)了解内存管理的基本问题

文章摘要:内存管理是操作系统的核心功能,主要用于解决程序直接操作物理内存带来的问题。首先,隔离不同进程的数据,防止恶意访问或崩溃(虚拟地址空间);其次,实现内存的高效共享(如共享库)和动态分配(malloc/free);最后,处理内存碎片问题(外部和内部碎片)。通过分页、权限控制等机制,操作系统抽象物理内存,提供安全、高效的内存访问环境,类似于旅馆管理房间分配。

2025-11-05 15:00:00 496

原创 操作系统 内存(1)理解内存的基本概念

本文概述了计算机内存的基本概念与运作机制。内存作为CPU直接读写的工作空间,被划分为连续的存储单元,每个单元都有唯一地址。操作系统为每个进程分配专属内存区域,包括代码区(存储指令)、数据区(全局变量)、堆区(动态分配)和栈区(局部变量)等不同功能分区。文章通过城市分区比喻解释各区域特性,并举例说明变量在不同内存区域的分配方式(如栈区的局部变量、堆区的动态分配等)。最后强调内存使用规则,包括地址空间保护、分区边界和生命周期管理,避免越界访问和内存泄漏。

2025-10-29 19:30:00 362

原创 DeepSeek-OCR:ContextsOpticalCompression

DeepSeek-OCR提出了一种创新的视觉-文本压缩方法,通过DeepEncoder将文档图像高比率压缩为少量视觉词符,再由DeepSeek-3B-MoE解码器还原文本。实验显示,10倍压缩下OCR精度达97%,20倍压缩仍保持60%准确率。该系统在OmniDocBench基准测试中以极少量词符超越现有模型,并具备单卡A100日处理20万页的高吞吐量。这一研究为长文本处理提供了新思路,通过视觉压缩解决了LLM的长上下文瓶颈,同时为历史文档压缩和记忆机制研究开辟了新途径。

2025-10-29 13:49:25 827

原创 操作系统 进程(5)进程间的通信

摘要:IPC(进程间通信)是操作系统中进程协作的关键机制,主要分为三种模式:复制传递(如管道、消息队列)、共享内存和信号同步。常用IPC方式包括管道(单向、内核缓冲区)、共享内存(高速但需同步)、消息队列(异步有序)、信号量(同步控制)和套接字(跨主机通信)。不同IPC方式在方向、数据复制、同步需求和适用场景上各有特点,如父子进程通信常用管道,高速数据共享适合共享内存,而网络通信则依赖套接字。

2025-10-23 07:30:00 836

原创 操作系统 进程(4)上下文切换与系统调用

进程切换时,CPU会保存当前进程的寄存器状态(程序计数器、栈指针等)到PCB中,并恢复下一个进程的状态。这一上下文切换过程涉及内核态转换,导致缓存失效、TLB刷新等开销,频繁切换会降低性能。系统调用也会触发用户态/内核态切换,但属于同进程内的特权转换。调度器负责选择下一个执行进程,其算法直接影响切换频率和系统效率。总体而言,上下文切换是多任务调度的核心机制,但需要平衡切换开销与任务执行时间。

2025-10-22 20:30:00 1423

原创 操作系统 进程(3)进程调度算法

本文介绍了操作系统进程调度的核心概念,包括三种调度场景(非抢占式、抢占式、实时)和五种经典算法:FCFS(易导致长作业阻塞)、SJF(需预知执行时间)、RR(时间片轮转公平调度)、优先级调度(可能饿死低优先级)和多级反馈队列(MLFQ,综合最优)。重点分析了各算法的特点、示例计算及优缺点,并对比了吞吐量、周转时间等性能指标。建议通过模拟5个进程的RR和SJF调度来加深理解。MLFQ因其动态调整优先级和时间片的特性,成为现代系统最常用算法。

2025-10-22 18:45:00 1658

原创 在没有网络的环境下安装包pymysql

本文介绍了在无网络环境下通过Docker安装pymysql的完整流程。主要包括:1)在有网络环境下载pymysql安装包;2)将安装包转移到目标环境;3)创建Dockerfile,将安装包复制到容器并安装;4)构建新镜像;5)运行更新后的镜像。整个过程实现了在不联网的情况下,通过Docker容器成功安装所需的Python包。

2025-10-22 10:22:41 351

原创 操作系统 进程(2)线程与并发

文章摘要 本文深入探讨了线程与并发编程的核心概念,重点解析了线程与进程的区别、线程的优势、并发与并行的差异,以及线程的实现方式。线程作为轻量级的执行单位,相比进程节省了内存和切换开销,但牺牲了隔离性。文章通过生动的类比(如厕所坑位和外卖等待)清晰区分了锁阻塞和I/O阻塞两种不同的阻塞机制,并分析了竞态条件的产生原因及解决方案,包括互斥锁和条件变量的使用。最后,文章强调了在多线程编程中同步与互斥机制的重要性,以确保数据一致性和线程安全。

2025-10-21 16:00:00 866

原创 操作系统学习 进程(1)进程的概念与状态

程序如何变成进程? 程序是静态代码,进程是程序执行的动态实例。当程序被加载到内存时,操作系统会为其分配资源(内存、CPU时间等),创建PCB(进程控制块)记录进程状态、寄存器值等关键信息,并将其加入就绪队列等待调度。 进程状态转换: 创建→就绪:分配资源 就绪→运行:获得CPU 运行→阻塞:等待I/O 阻塞→就绪:I/O完成 运行→终止:执行结束 PCB是进程管理的核心,保存进程上下文,实现多任务切换。进程通过状态转换实现CPU资源共享,阻塞状态让CPU能处理其他任务,提高效率。

2025-10-20 19:00:00 795

原创 docker学习(4)容器的生命周期与资源控制

本文总结了Docker容器操作的本质区别及其影响:启动(start)会创建新进程保留数据,暂停(pause)会挂起进程,重启(restart)会重建进程清空内存但保留挂载数据,删除(rm)会彻底移除容器层数据。同时解释了Docker如何通过cgroups限制CPU和内存资源,防止容器间资源抢占;并阐述了Docker解决环境一致性、快速部署和资源隔离的核心价值,以及在微服务和CI/CD中的关键作用。最后指出容器依赖宿主机,系统故障会导致容器中断,但持久化数据可恢复。

2025-10-17 19:00:00 998

原创 docker学习 (3)网络与防火墙

Docker默认创建三种网络:bridge(默认虚拟网桥,容器间可通信)、host(直接使用宿主机网络)和none(无网络接口)。bridge模式下,容器通过docker0网桥互联并借助NAT访问外网。宿主机防火墙通过iptables管理Docker网络规则,端口映射(如-p 8080:80)将宿主机端口转发到容器内部。若防火墙配置不当可能导致网络异常,需检查Docker的iptables规则及firewalld策略。

2025-10-16 22:45:00 932

原创 编码器系列(2)RoBERTa

RoBERTa论文通过系统性实验改进了BERT的预训练过程,提出更高效的训练策略。研究发现原始BERT训练不足,并通过以下优化显著提升性能:(1) 延长训练时间,扩大批次规模,增加数据量;(2) 移除下一句预测目标;(3) 使用更长的序列;(4) 采用动态掩码模式。在相同数据量下,优化后的模型在GLUE和SQuAD上超越原始BERT;当使用额外数据训练后,在GLUE、RACE等任务上达到最先进水平。研究证明充分优化的掩码语言模型目标仍具竞争力,并开源了模型代码和新数据集CC-NEWS。

2025-10-16 09:43:12 851

原创 docker学习(2)存储与挂载

Docker数据持久化方式对比及命令解析 容器删除后数据的去向 默认情况下,容器删除时其可写层数据会丢失。只有使用外部存储方式的数据才会保留,主要包括: Volume(Docker管理的专用数据目录) Bind Mount(直接挂载宿主机路径) Tmpfs Mount(仅内存存储) 三种持久化方式对比 特性 Volume Bind Mount Tmpfs 存储位置 Docker管理 宿主机指定路径 内存 容器删除后保留 ✅ ✅ ❌ 多容器共享 ✅ ✅ ❌ 速度 中等 中等 极快 命令解析 -v(简写)和--

2025-10-15 11:12:01 643

原创 docker学习(1)Docker 与容器的核心概念

Docker通过Linux内核的namespace和cgroup机制实现容器隔离,相比虚拟机少了Hypervisor层,直接共享宿主机内核。镜像作为只读模板定义环境,容器运行时在其上叠加可写层,修改不会影响镜像。namespace提供进程、网络等隔离视图,cgroup限制资源使用,两者共同实现轻量级虚拟化。挂载(volume)可实现数据持久化,而环境变更需通过Dockerfile固化到镜像中。这种设计使容器既能隔离运行,又能高效共享系统资源。

2025-10-13 09:59:56 1011

原创 编码器系列(1)BERT

提出了一种新的语言表示模型,称为 BERT,其全称是来自 Transformers 的双向编码器表示。与近期的语言表示模型(Peters 等人,2018a;Radford 等人,2018)不同,BERT 旨在通过在所有层中联合调节左右上下文,从无标注文本中预训练深度双向表示。

2025-09-28 10:45:38 792

原创 Transformer原理学习(4)注意力机制

本文介绍了Transformer中的几种注意力机制及其原理。核心是缩放点积注意力(Scaled Dot-Product Attention),通过Q(查询)、K(键)、V(值)计算相关性并加权聚合信息。多头注意力并行多个注意力头,在不同子空间学习多样化关系。掩码自注意力用于解码器,屏蔽未来信息防止作弊。交叉注意力让解码器查询编码器输出,实现输入输出对齐。这些机制共同使Transformer能有效建模长距离依赖和复杂语义关系。

2025-09-23 22:30:00 2147

原创 Transformer论文(1)Attention Is All You Need

主流的序列转换模型基于复杂的循环神经网络或卷积神经网络,这些网络包含编码器和解码器。性能最佳的模型还通过注意力机制连接编码器和解码器。我们提出了一种新的简单网络架构——Transformer,它完全基于注意力机制,完全摒弃了循环和卷积结构。

2025-09-22 17:21:21 525

原创 目标计数(4)Class-agnostic Few-shot Object Counting

本文提出了一种有效的目标计数网络:类别无关少样本目标计数网络(Class-agnostic Fewshot Object Counting Network, CFOCNet),它能够根据输入的参考图像对任意类别的目标进行计数。CFOCNet网络由一个双流Resnet编码器和一个解码器组成。编码器分别提取查询图像和参考图像的特征,通过相关操作来嵌入两个分支的信息以计算不同尺度下的匹配分数;解码器通过可训练的加权求和机制融合编码器生成的分数图,以生成预测的密度图。

2025-09-19 09:10:14 991

原创 目标计数(3)Object Counting: You Only Need to Look at One

本文旨在解决单次目标计数的问题,具体来说,仅采用包含一个示例样本边界框的图像作为输入,来统计出该类别所有目标的个数。单样本计数存在的主要问题:目标计数任务中包含不同的类别,甚至一张图片里面就有多个类别,而在少样本计数中,这些类别在训练和推理阶段不会重叠;在单样本计数中,模型仅仅能从单个实例中学习;目标的尺寸、形状可能差异较大。

2025-09-17 15:05:28 1068

原创 Transformer原理学习(3)线性变换

Transformer架构中的线性变换是其核心操作之一,主要用于将输入序列映射到不同的语义空间。在自注意力机制中,通过三个独立的线性变换矩阵(WQ、WK、WV)分别生成查询(Query)、键(Key)和值(Value),使模型能够从不同视角理解token之间的关系。这种设计源于早期注意力机制的演变:从RNN的瓶颈问题到Bahdanau的加性注意力,再到Luong的点积注意力,最终形成Q/K/V的抽象框架。线性变换的关键作用在于解耦token的三种角色——提问方式、匹配标签和信息传递,从而增强模型捕捉复杂依赖

2025-09-17 09:19:28 1258

原创 Transformer原理学习(2)位置编码

位置编码是为Transformer模型提供序列位置信息的关键技术。由于Transformer的并行处理特性会丢失词序信息,位置编码通过将位置向量与词嵌入相加来注入位置数据。理想的位置编码需满足唯一性、跨句距离一致性、有界性和确定性等要求。从初始的整型标记发展到采用正弦和余弦函数的周期性表示,这种设计不仅解决了离散空间问题,还能通过线性变换捕捉相对位置关系。相加而非拼接的方式既节省参数量,又允许模型自主分配信息维度。残差连接则确保位置信息能传递到深层网络。这种创新的位置编码方法为Transformer处理变长

2025-09-15 22:39:52 1074

原创 目标计数论文阅读(2)Learning To Count Everything

现有关于视觉计数的研究大多仅针对单一特定类别(如人、动物、细胞)进行。本文提出了一种通用计数方法,旨在仅需给定目标类别的少量标注实例,即可对任意类别物体进行计数。我们将计数问题构建为一个少样本回归任务,并提出一种新颖的方法:通过输入查询图像及该图像中少量示例物体,预测查询图像中所有目标类别的物体的密度分布图。此外,我们设计了一种创新的自适应策略,使网络在测试时能够仅通过来自新类别的少量示例物体,快速适应任何未知视觉类别。

2025-09-14 16:45:00 854 2

原创 python知识点(1)程序、进程、线程、协程是什么,有什么区别

本文系统介绍了计算机系统中的程序、进程、线程和协程四大核心概念。程序是静态的代码文件,进程是程序运行的实例,线程是进程的执行单元,协程则是轻量级的用户态线程。四者在资源分配、内存隔离、执行效率等方面各具特点:进程独立性强但开销大,线程共享内存但需同步机制,协程适合高并发I/O任务。文章通过生活类比和代码示例,清晰阐述了不同层级的执行单元如何协作完成计算任务,并提供了适用场景的选择建议,帮助读者理解计算机系统的多任务处理机制。

2025-09-14 13:21:50 912

原创 目标计数论文阅读(1)Class-Agnostic Counting

研究旨在提出一种通用物体计数模型,能够计数任何类别的物体,这与绝大多数为特定类别设计的现有方法不同。为实现这一目标,研究将计数问题重新定义为匹配问题,从而能够利用计数任务中天然存在的图像自相似性特性。提出通用匹配网络(GMN)架构:这是一个能够以类别无关(class-agnostic)的方式计数任何物体的模型架构。利用追踪数据进行训练:通过将计数定义为物体匹配,研究可以充分利用大量为视频目标追踪标注的数据。这些数据包含丰富的自然重复对象,非常适合用于训练这种计数模型。引入适配器模块实现少样本定制。

2025-09-12 16:00:00 1656

原创 python中等难度面试题(3)装饰器

Python装饰器是一种在不修改原函数代码的情况下增强函数功能的技术。当多个装饰器嵌套使用时,其执行顺序遵循"从里到外"的安装顺序和"从外到里"的执行顺序。通过示例代码可以看到:装饰器安装阶段会立即执行装饰器函数(输出"装饰器2安装"、"装饰器1安装"),而函数调用时则按照装饰器的嵌套顺序执行(输出"装饰器1执行前"→"装饰器2执行前"→目标函数→"装饰器2执行后"→&

2025-09-11 16:00:00 1890

原创 python中等难度面试题(2)

Python代码输出结果及解析: a1 == a2返回True(调用__eq__方法比较值相等) a1 is a2返回False(不同内存对象) a1 == a3返回True(值相同) a1 is a3返回True(同一对象引用)。 核心知识点: ==触发__eq__方法进行值比较 is比较对象内存地址 Python变量存储对象引用,赋值操作实现引用复制 自定义类需重写__eq__才能支持值比较

2025-09-08 18:19:27 946

原创 python中等难度面试题(1)

Python拷贝机制总结 Python中浅拷贝(copy())仅复制外层对象,内部对象仍共享引用;深拷贝(deepcopy())递归复制所有对象,完全独立。浅拷贝可能导致意外修改共享数据,深拷贝则消耗更多资源。列表推导式简洁高效但可能影响可读性,而生成器表达式((x for x))惰性求值,适合大数据处理。生成器函数通过yield暂停/恢复执行,利用闭包和生成器帧保持状态,比手工实现迭代器更高效。实际应用中应根据数据规模、内存需求及代码复杂度选择合适方案。

2025-09-05 18:19:41 840

原创 Dify工作流--发票信息获取

本文描述了一个基于视觉和语言大模型的发票信息提取系统。系统支持两种输入格式:发票图片(使用GLM4.5V视觉模型处理)和PDF文件(通过文档提取器处理后由QWen3-30B语言模型解析)。处理流程包括:1)输入检测(区分图片/PDF);2)对应模型处理;3)输出结构化JSON结果,包含发票号码、日期、买卖双方信息、商品明细及金额等字段。系统特别强调严格的JSON输出格式要求,并提供了标准的提示词模板,确保不同输入方式都能得到统一格式的输出结果。该方案展示了多模态模型在票据识别领域的应用潜力。

2025-09-01 16:08:00 481

原创 Dify工作流之合同信息提取

本文介绍了一个基于AI的合同关键信息提取及风险分析系统。该系统工作流程包括:1)输入合同文档;2)通过文档提取器处理多格式文件;3)大模型执行智能审查(含主体名称、金额、日期等一致性检查);4)Markdown格式转换;5)输出Docx文件。系统能自动识别合同基本信息,检查格式规范与逻辑一致性,并输出结构化分析结果,实现合同风险的可视化呈现与智能预警。

2025-08-30 22:31:07 1165

原创 OpenCV之霍夫变换

霍夫变换是一种经典的形状检测算法,广泛应用于直线和圆的识别。其核心思想是将图像空间的特征映射到参数空间进行投票,通过峰值搜索确定几何形状参数。对于直线检测,通过极坐标(ρ,θ)表示直线,利用投票机制找到图像中的直线;对于圆检测,则构建三维参数空间(a,b,r)来定位圆心和半径。OpenCV提供了HoughLines和HoughCircles等函数实现该算法,通过调整参数如投票阈值、精度等可优化检测效果。该算法虽计算量较大,但在边缘清晰的图像中表现优异,是计算机视觉中重要的基础算法。

2025-08-29 10:05:27 943

大模型注意力机制演化与发展,十篇近年来综述

这里整理了一份 关于大语言模型(LLM)中注意力机制/结构演化方向 的论文清单(包括综述+典型机制改进论文)。每篇包含标题、作者、年份、关键词和简要说明,方便你进一步查阅。 Efficient Attention Mechanisms for Large Language Models: A Survey Speed Always Wins: A Survey on Efficient Architectures for Large Language Models X-former Elucidator: Reviving Efficient Attention for Long Context Language Modeling A Survey on Transformers in NLP with Focus on Efficiency 等等

2025-10-22

人大金仓数据库驱动+建链接kingbase

安装驱动+新建链接kingbase+输入账户密码登录

2025-10-20

亿图画图软件,画你想画

这软件正常是要收费的,但是我还留了一份苏联的遗产[表情] 感觉比 draw.io 好用,如果要画出漂亮的图,还得是用这个软件 主要是有很多模板可以用(有免费也有收费的)

2025-09-19

图像处理,OCR系列文章,5篇

从最传统的outs、基线检测、单词分类识别到神经网络CTPN、CRNN到transformer

2025-08-26

cozeworkfolws工作流

收集的200多个工作流

2025-08-26

dify1.4.2 插件junjiem-mcp-compat-dify-tools-0.1.1-offline.difypkg

dify1.4.2 插件junjiem-mcp_compat_dify_tools_0.1.1-offline.difypkg

2025-06-17

dify1.4.2 插件hjlarry-mcp-server-0.0.3-offline.difypkg

dify1.4.2 插件hjlarry-mcp-server_0.0.3-offline.difypkg

2025-06-17

dify1.4.2,插件hjlarry-agent-0.0.1-offline.difypkg

dify1.4.2,插件hjlarry-agent_0.0.1-offline.difypkg

2025-06-17

插件langgenius-openai-api-compatible-0.0.16

适配python3.12的环境,dify对应版本为1.4.2

2025-06-17

docker-compose-linux-x86-64

docker-compose-linux-x86_64

2025-06-09

docker 28.0.0

docker 28.0.0安装包,x86-64

2025-06-09

【自然语言处理】大型语言模型的检索增强生成技术综述:从Naive RAG到Modular RAG的发展与应用

内容概要:本文综述了检索增强生成(RAG)技术在大规模语言模型(LLMs)中的应用和发展。文章首先介绍了LLMs面临的挑战,如幻觉、知识过时及推理过程不透明,随后阐述了RAG如何通过引入外部知识库来提升LLMs的表现。RAG的发展经历了三个阶段:朴素RAG、高级RAG和模块化RAG。每个阶段都对检索、生成和增强技术进行了优化。此外,文章详细探讨了RAG在不同应用场景下的具体实现方法,包括查询优化、嵌入模型选择、适配器集成等。最后,文章提出了当前RAG技术面临的挑战以及未来的研究方向,强调了多模态RAG的应用前景。 适用人群:从事自然语言处理、机器学习及相关领域的研究人员和工程师,特别是关注LLMs和信息检索技术的人士。 使用场景及目标:①了解RAG技术的基本概念及其在LLMs中的应用;②掌握RAG从早期到模块化的演进历程;③学习RAG在不同任务中的具体实现方法和技术细节;④探索RAG面临的挑战和未来的潜在发展方向。 其他说明:本文不仅提供了对RAG技术的全面概述,还深入分析了其核心技术组件,如检索、生成和增强,并讨论了评估框架和基准测试。此外,文中还涉及了RAG与微调(Fine-tuning)技术的比较,以及RAG在多模态数据处理中的扩展应用。对于希望深入了解RAG技术及其未来趋势的研究人员来说,这是一篇极具价值的参考文献。

2025-05-23

【信息检索领域】基于假设文档嵌入的无监督零样本密集检索模型HyDE:无需相关性标签的跨任务与多语言高效检索

内容概要:本文介绍了一种全新的零样本稠密检索模型——Hypothetical Document Embeddings(HyDE),旨在解决没有相关性标签时的高效检索问题。HyDE利用指令跟随的语言模型(如InstructGPT)生成假设文档,再通过无监督对比编码器(如Contriever)将这些文档转换为向量表示,从而在语料库中找到相似的真实文档。实验表明,HyDE在多种任务(如网页搜索、问答、事实验证)和语言(如斯瓦希里语、韩语、日语)上显著优于现有的无监督稠密检索模型,甚至接近微调模型的表现。 适合人群:对信息检索、自然语言处理、机器学习等领域感兴趣的研究人员和技术人员,尤其是希望了解零样本学习和无监督学习方法的人群。 使用场景及目标:①在缺乏标注数据的情况下进行高效的信息检索;②适用于多种语言和任务的跨领域应用;③提高低资源语言和任务的检索性能。 其他说明:HyDE的核心思想是将相关性建模从表示学习模型转移到自然语言生成模型,避免了直接计算查询与文档之间的相似度。此外,研究还探讨了不同大小的语言模型和微调编码器对HyDE性能的影响。实验结果显示,HyDE不仅在无监督设置下表现出色,在某些情况下还能进一步提升有监督模型的效果。

2025-05-23

【自然语言处理领域】基于检索增强生成(RAG)模型的综述:多模态信息融合与应用挑战分析

内容概要:本文全面综述了自然语言处理(NLP)领域中的检索增强生成(RAG)模型,探讨了其原理、架构及应用。RAG模型结合了信息检索与文本生成的优势,通过引入外部知识源(如大规模文本语料库)来增强生成响应的质量和准确性。文章首先介绍了RAG的基本概念及其相对于传统生成模型的优势,特别是在处理需要领域知识的任务时。接着详细讨论了RAG的核心技术,包括稀疏和密集检索方法、融合机制以及注意力机制等。此外,还探讨了RAG在开放域问答、文本摘要、对话系统等任务中的具体应用场景,并指出了当前面临的主要挑战,如检索质量、信息整合、可扩展性和伦理问题。最后展望了未来的研究方向,强调了改进检索技术、增强信息融合、提升效率及解决公平性和透明度的重要性。 适合人群:对自然语言处理感兴趣的研究人员和技术从业者,尤其是那些希望深入了解RAG模型及其潜在应用的人士。 使用场景及目标:①理解如何将信息检索与文本生成相结合,以提高生成内容的相关性和准确性;②探索RAG模型在不同NLP任务中的实际应用案例;③识别并应对RAG模型实施过程中可能遇到的技术和伦理挑战。 其他说明:本文为非同行评审版本,提供了关于RAG模型的最新进展和未来趋势的深入见解,对于推动该领域的进一步发展具有重要意义。

2025-05-23

【自然语言处理】大型语言模型的检索增强生成技术综述:发展历程、关键技术与未来方向了检索增强生成### 文章总结:Generate-Then-Read:利用大型语言模型生成上下文文档以解决知识密集型任务

内容概要:本文全面回顾了检索增强生成(RAG)技术的发展历程及其在大型语言模型(LLMs)中的应用。RAG旨在通过从外部数据库检索相关信息来增强LLMs的表现,解决其幻觉、知识过时和推理不透明等问题。文章详细介绍了RAG的三个主要发展阶段:朴素RAG、高级RAG和模块化RAG,并深入探讨了其核心技术组件——检索、生成和增强的具体实现方法。此外,文中还讨论了RAG与其他优化方法如微调的区别与结合方式,以及RAG在多模态领域的扩展应用。最后,文章提出了RAG面临的挑战和发展前景。 适用人群:对自然语言处理、机器学习和大型语言模型感兴趣的科研人员和技术开发者。 使用场景及目标:①理解RAG的基本概念内容及其在不同阶段概要的技术演进;:本文提出了一②掌握R种名为“generate-then-read”的AG的核心技术,新方法,用于包括检索、生成和增强的具体实现解决知识密集型任务,如开放;③评估领域问答(QARAG与其他优化方法(如微)、事实核查和对话系统。该调)之间的异方法用大型语言同;④模型生成与问题探索RAG在相关的上下文文档多模态数据来替代传统的从处理中的应用潜力外部语料库。 其他说明:(如维基百科)检索文档本文不仅为读者提供了关于RAG的方式。通过这种方法技术的详尽,模型首先根据综述,还给定的问题生成指出了当前研究背景文档,然后中的不足之处及阅读这些生成的未来的研究方向。文档以推断随着LLMs能力最终答案。实验表明,在TriviaQA的不断增强,RAG技术将继续发挥重要作用,特别是在处理和WebQ数据集上,该复杂、知识密集方法分别达到了7型任务方面。1.6和同时,文章强调54.4了构建标准化评估的精确匹配得分框架的重要性,以,显著优于当前的检索-阅读确保RAG系统的模型(如D性能能够得到准确评价。PR-FiD)。

2025-05-23

消除大模型幻觉,加速大模型在企业落地

消除大模型幻觉,加速大模型在企业落地

2024-04-13

细粒度图像分类上 Vision Transformer 的发展综述

主要根据模型结构全面综述了基于 ViT 的FGIC 算法,包括特征提取、特征关系构建、特征注意和特征增强四方面内容,对每种算法进行总结,并分析它们的优缺点。

2024-01-07

读取并重写csv文件,重写时每八个数据进行一次换行操作 python

读取并重写csv文件,重写时每八个数据进行一次换行操作 python

2023-11-07

The Oxford Handbook of Affective Computing

《The Oxford Handbook of Affective Computing》是一本关于情感计算的权威手册,它涵盖了情感计算的各个方面,包括理论、方法、应用等。情感计算是人工智能领域的一个重要分支,它旨在让计算机具备识别、理解、表达和模拟人类情感的能力。这本手册由著名的情感计算专家Rafael A. Calvo、Sidney K. D'Mello、Jonathan Gratch和Arvid Kappas共同编写,收录了来自世界各地的专家学者的文章,是情感计算领域的重要参考资料。

2023-10-25

一篇关于计算机视觉和人类视觉之间关系的综述性文章

《From Human Attention to Computational Attention: A Multidisciplinary Approach》是一篇关于计算机视觉和人类视觉之间关系的综述性文章。该文章探讨了计算机视觉如何模拟人类视觉,以及如何将人类视觉的特点应用于计算机视觉中。文章提出了一种多学科的方法,将计算机科学、心理学、神经科学和认知科学等领域的知识结合起来,以更好地理解和模拟人类视觉。该文章对于研究计算机视觉和人类视觉之间关系的人员具有重要的参考价值。

2023-10-25

一篇关于人类对视觉信息感知的文章

人类对视觉信息的感知是一个复杂的过程,它涉及到大脑、眼睛和环境等多个方面。数据可视化是一种将数据转换为图形或图像的方法,以便人们更容易地理解和分析数据。在数据可视化中,人类感知视觉信息的能力是至关重要的。通过使用颜色、形状、大小、位置等视觉元素,数据可视化可以帮助人们更好地理解数据。同时,数据可视化也需要考虑人类视觉系统的局限性,例如颜色盲、空间感知等问题。因此,数据可视化需要结合人类视觉系统的特点来设计和实现。

2023-10-25

Multi-Label Image Recognition with Graph Convolutional Networks

在我们最初的会议论文中,我们报告了使用GAP进行比较的基线分类结果,因为GAP是ResNet系列中特征聚合的默认选择。在我们的实验中,我们发现用GMP代替GAP可以提高性能,因此在我们的GCN方法中采用了GMP——我们将GMP视为我们方法的一部分。为了澄清,我们重新运行了基线,并在下表中报告了相应的结果。 Method COCO NUS-WIDE VOC2007 Res-101 GAP 77.3 56.9 91.7 Res-101 GMP 81.9 59.7 93.0 Ours 83.0 62.5 94.0

2023-10-18

abstract图像情感数据集

简介:使用了三个数据集:国际情感图像系统(IAPS);一组来自照片分享网站的艺术照片(调查艺术家有意识地使用颜色和纹理是否能改善分类);和一组同龄人评分的抽象画,以调查特征和评分对无上下文内容的图片的影响。离散情感八分类:Amusement、Anger、Awe、Contentment、Disgust、Excitement、Fear、Sadness。

2023-10-18

图像情感分析 英文论文十篇

01 Multi-level Region-based Convolutional Neural Network for Image 02 Multiscale_Emotion_Representation_Learning_for_Affective_Image_Recognition 03 Weakly_Supervised_Emotion_Intensity_Prediction_for_Recognition_of_Emotions_in_Imag 04 Multi-scale_blocks_based_image_emotion_classification_using_multiple_instance_learninges 05 Learning multi-level representations for affective image recognition 06 Joint Image Emotion Classification and Distribution Learning 07 Adaptive_Deep_Metric_Learning_for_Affe

2023-10-18

图像情感分类数据集Emotion6

Emotion6是一个情感诱发图像数据集,包含了Paul Ekman的6种基本情绪和中立情绪,共7个情感分布bin,每个bin包含330张图片。每张图片都有VA值对诱发情绪评分的ground truth,同时作者还进行了情感风格迁移,在不改变高层语义的情况下,通过改变源图像的底层特征,从而实现迁移图像情感向目标图像的迁移。EmotionROI是在Emotion6的基础上,添加了情感诱发区域ESM标注(Emotion Stimuli Maps),情感诱发区域不等同于对象区域,也不等同于显著性区域。

2023-10-18

损失函数 LDAM (详细代码,亲测可运行)

论文:Learning Imbalanced Datasets with Label-Distribution-Aware Margin Loss](https://arxiv.org/pdf/1906.07413.pdf) in PyTorch. Abstract 当训练数据集存在严重的类不平衡时,深度学习算法的表现可能会很差,但测试标准需要对不太频繁的类进行良好的泛化。 我们设计了两种新的方法来提高这种情况下的性能。首先,我们提出了一个理论上的标签分布感知边际损失(LDAM),其动机是最小化基于边际的泛化边界。在训练过程中,这种损失取代了标准的交叉熵目标,并可以应用于先前的训练策略,如重加权或重采样类不平衡。其次,我们提出了一个简单而有效的训练计划,将重新加权推迟到初始阶段之后,允许模型学习初始表示,同时避免了与重新加权或重新抽样相关的一些复杂性。我们在几个基准视觉任务上测试了我们的方法,包括真实世界的不平衡数据集iNaturalist 2018。我们的实验表明,这两种方法中的任何一种都可以比现有的技术有所改进,它们的结合甚至可以获得更好的性能增益。 ——————————————

2023-10-18

深度学习 + Resnet + 详解

import torch import torch.nn as nn # --------------------------------# # 从torch官方可以下载resnet50的权重 # --------------------------------# model_urls = { 'resnet50': 'https://download.pytorch.org/models/resnet50-19c8e357.pth', } # -----------------------------------------------# # 此处为定义3*3的卷积,即为指此次卷积的卷积核的大小为3*3 # -----------------------------------------------# def conv3x3(in_planes, out_planes, stride=1, groups=1, dilation=1): return nn.Conv2d(in_planes, out_planes, kernel_size=3, stride=s

2023-10-18

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除