- 博客(329)
- 资源 (8)
- 收藏
- 关注
原创 动态上下文感知机制的理解
《Dynamic Context-Aware Multimodal Reasoning for Vision-Language Tasks》提出了一种动态上下文感知多模态推理模型(DCA-MM),旨在提升AI系统在视觉问答、图像描述等任务中对复杂语义的理解能力。该模型通过动态上下文门控机制自适应调整视觉与语言特征的权重,采用多层语义路由模块实现任务特定信息处理,并利用跨模态注意力实现精准的特征对齐。实验表明,DCA-MM在多个任务上实现8%的精度提升,同时减少15%参数量。该研究融合了CNN、ViT、BER
2025-10-21 01:40:22
793
原创 OpenAI团队告诉你为什么大语言模型会幻觉?
大语言模型幻觉的深层原因与应对策略 OpenAI与佐治亚理工的研究揭示,语言模型幻觉(生成合理但错误的内容)并非技术缺陷,而是当前训练体系的必然结果。其根本原因包括: 预训练统计误差传导:模型学习的是词频概率而非事实,数据偏差导致错误答案被强化; 后训练激励错位:RLHF奖励流畅性而非准确性,促使模型"自信犯错"。 论文指出,生成正确答案的难度远高于验证答案,导致模型在自由生成时更易出错。缓解策略包括:训练模型表达不确定性、结合检索增强生成(RAG)、改进评估指标等。本质上,幻觉是统计学
2025-10-20 16:37:52
611
原创 HyperGraphRAG再次刷新RAG检索效率以及速度记录
HyperGraphRAG突破传统RAG检索瓶颈,通过超图结构实现高效知识组织与检索。其核心创新在于:1)采用超边表示n元关系,避免普通图方法强制分解导致的语义损失;2)构建知识超图时保留完整语义单元(如医学诊断的多因素关联);3)检索阶段通过双向扩展形成连贯知识子图。相比标准RAG的碎片化检索和GraphRAG的二元关系限制,HyperGraphRAG在复杂查询场景(如医疗多指标分析)中展现出显著优势,能同时提升检索速度30%和答案准确率45%。系统实现文档解析、超图构建、向量检索、知识融合的完整技术链路
2025-08-25 00:17:34
913
原创 从小白到Embedding高手:BERT、T5和Qwen3的嵌入技术变革
本文系统介绍了从基础到前沿的Embedding技术。Embedding将词语转化为数字向量,使机器能理解语义关系,相比传统One-Hot编码具有维度低、能表达语义关联等优势。文章详解了技术演进历程:从静态词向量Word2Vec(含CBOW和Skip-gram架构),到动态上下文模型BERT,再到统一文本框架T5,以及支持多语言长上下文的Qwen3和采用MoE架构的DeepSeek。关键训练方法包括预训练、微调和对比学习,并通过代码示例展示如何用Hugging Face提取Embedding。典型应用覆盖语义
2025-08-24 06:26:45
915
原创 解决RAG的噪声与浅层推理:DeepSieve的模块化信息筛分新范式
DeepSieve:模块化信息筛分框架解决RAG噪声与浅层推理问题 摘要:DeepSieve是一个创新的RAG框架,通过模块化设计有效解决了传统检索增强生成中的噪声干扰和浅层推理问题。该框架将推理过程分解为查询分解、知识路由、观察反思和答案融合四个阶段,利用LLM作为"知识路由器"实现精准的异构知识源调度。实验表明,DeepSieve在MuSiQue、2WikiMultiHopQA等复杂多跳问答数据集上F1得分提升3-5个点,同时将平均Token消耗降低至3.9K,显著优于ReAct、R
2025-08-08 16:36:07
942
原创 DeepSeekNSA省力的同时还能提速!
《Native Sparse Attention (NSA)》提出了一种革命性的稀疏注意力机制,通过三条并行分支显著提升长文本处理效率:全局压缩注意力(复杂度O(m²))、选择性注意力(O(nk))和滑动窗口注意力(O(ws))。实验显示,该方法在64k序列长度下实现11.6倍加速,显存消耗降低35%,同时精度提升0.022-0.034。相比传统全注意力(O(n²))和其他稀疏方案,NSA通过动态融合全局、重点和局部信息,在保持性能的同时突破长文本处理瓶颈,适用于文档分析、代码审查等场景。
2025-08-08 02:11:00
766
原创 Mixture‑of‑Recursions让模型对简单 token 少想、对复杂 token 多想
摘要:Mixture-of-Recursions (MoR) 通过递归块参数复用、动态路由和选择性KV缓存,实现Transformer模型的高效优化。核心思想是让模型对简单token少计算、复杂token多计算,从而节省参数(70%+)、算力(延迟降30%)和显存(峰值显存减半)。MoR采用多层打包的递归块循环调用,配合Router动态分配计算深度,并通过选择性KV缓存优化长上下文处理。实验显示其在小模型和边缘端表现优异,但需调整路由稳定性。未来可结合稀疏化和低精度技术进一步优化。
2025-08-01 01:39:28
805
原创 SepLLM让KV再次被砍价
SepLLM提出了一种基于语言分隔符的KV缓存压缩方法,通过训练或推理阶段仅保留关键token(起始位置、历史分隔符和最近邻)的KV,显著降低显存占用和计算开销。实验表明,在Llama-3-8B等模型上,SepLLM可减少50%以上的KV缓存,同时保持模型性能,支持处理长达400万token的流式输入。该方法既可作为即插即用的SepCache直接用于推理加速,也可集成到训练过程中提升效率。相比于H2O、StreamingLLM等方法,SepLLM通过语言结构驱动的信息压缩机制,在训练-推理一致性、长文本处理
2025-07-27 02:14:19
666
原创 关于AI编程的分析报告
AI编程助手市场发展迅猛,GitHub Copilot、Claude Opus 4等工具在开发效率和性能上取得突破。建议企业采用混合部署策略,12个月内实现效率提升30%,上线周期缩短20%,同时构建合规、安全等支撑体系。全球市场规模持续扩大,中美监管政策相继出台。典型应用案例显示生产力提升显著,投资回报率预估可观。需关注云端与本地部署的平衡、模型选择及收费模式等关键议题,以渐进式迭代降低风险。
2025-07-25 14:23:37
1524
1
原创 关于国产图数据库做graphrag的探索
本文探讨了国产图数据库在GraphRAG技术中的应用实践与优化路径。作者对比了HugeGraph、NebulaGraph、TuGraph等国产图数据库特性,详细记录了从NebulaGraph的初步尝试、微软开源方案的评测,到DB-GPT和KAG等新技术的探索过程。针对金融场景下的多跳查询需求,团队最终开发出融合流式解析、分层存储和动态检索的混合方案:采用NebulaGraph处理结构化关系,TuGraph管理上下文信息,结合MySQL存储数值数据,通过占位符机制实现可解释的并行查询。该方案有效平衡了查询精度
2025-07-22 10:20:29
985
原创 LoRA再度优化,可训练参数再削95 %!
LoRI(*LoRA with Reduced Interference*)在 LoRA 的“低秩注入”框架上作两步改进:**随机冻结 A 矩阵 + 任务稀疏 B 掩码**,把可训练参数再削 ≈ 95 %,同时通过正交子空间显著缓解 **多任务适配器合并冲突** 与 **持续学习遗忘**;在 8 B‑70 B 级 LLM 上,LoRI 与 LoRA 单任务精度持平,却能在多任务平均分提升 3‑6 pp,且显存、训练时长均进一步下降。
2025-07-22 00:58:54
888
翻译 Chain-of-Thought Is Not Explainability简单翻译
摘要 本文指出,虽然链式思维(CoT)提示能提升模型任务表现并生成看似透明的推理步骤,但这些文本与模型内部实际计算流程往往不一致。作者认为CoT既非必要(模型不输出推理文本也能达到类似性能)也非充分(文字步骤不能保证揭示真实因果因素)。将CoT简单等同于解释可能在高风险领域引发误导和过度信任。文章提出三项忠实性准则(程序正确性、因果相关性和完整性)作为判断解释可信度的标准,并通过实证证据展示了CoT文本与内部计算的常见背离现象。最后呼吁建立以机制验证为核心的评估框架,包括激活干预、反事实测试等方法,以区分&
2025-07-21 01:27:24
169
原创 针对大规模语言模型的上下文工程技术调研与总结(翻译并摘要)
摘要 本文系统综述了大规模语言模型中的上下文工程技术。首次提出"上下文工程"学科概念,构建了包含基础组件(检索生成、处理、管理)和系统实现(RAG、记忆系统、工具集成、多智能体)的完整分类体系。研究覆盖1400余篇文献,揭示了当前模型在理解复杂上下文方面的优势与其生成能力的不足。重点介绍了包括模块化RAG架构(如FlashRAG、KRAGEN)、智能体化系统(如Self-RAG)等创新技术。通过统一框架整合了原本分散的研究方向,为上下文感知AI的发展提供了系统性指导。
2025-07-19 17:01:10
1159
原创 dify部署与新手简单使用
本文介绍了Dify的Docker部署方法及新手使用指南。部署部分详细说明了Windows/Linux/Mac系统的项目下载方式,以及通过Docker Compose快速启动服务的步骤。使用指南包含四个核心功能:1)添加AI模型(以通义千问为例);2)创建基础对话机器人(包括提示词设置和参数调整);3)批量文本生成流程(使用变量和工作流);4)NL2SQL功能实现(包含数据库表结构生成和SQL语句转换)。每个功能都配有操作截图和关键参数建议(如推荐模型、温度值设置等),特别适合刚接触Dify的用户快速上手AI
2025-07-02 00:14:19
723
原创 AI 翻译神器!免费开源,支持离线使用
这是一款开源无广告的智能翻译工具,支持50+种语言的文本/语音/蓝牙对话翻译,采用Meta NLLB和OpenAI Whisper技术实现高精度离线翻译,提供TTS语音定制功能,安卓用户可一键安装使用。
2025-06-20 01:31:13
1040
原创 让你的MCP符合openai协议
mcpo 项目的核心原理在于将传统通过 stdio 通信的 MCP 工具代理为符合 OpenAPI 标准的 HTTP 服务器,从而让 AI 工具和大语言模型能够直接调用这些工具,无需额外编写集成代码。它自动生成交互式文档,并内置安全、错误处理和认证等功能,使得原本不易集成的 MCP 工具能够轻松与现代应用和 SDK 对接。源项目地址。
2025-04-09 15:23:08
1258
原创 dbgpt7.0 docker部署
同时本文均采用huggingface的方式部署,各大平台都有提供镜像网站,为防止不必要麻烦不粘贴链接,自行搜索。官方为了快速启动,采用SILICONFLOW。下面完全按照本地的方式搞。注意:gitclone的模型和词向量模型如果使用代理可跳过相应的步骤。模型为Qwen2.5-Coder-0.5B-Instruct。注意 根据自己的需要修改配置文件,尤其是模型和词向量模型。词向量模型为bge-large-zh-v1.5。可以根据需要自行更改,并不是唯一的。
2025-04-01 14:33:43
1207
原创 DeepSeekR1论文精读与部分代码复现
DeepSeek-R1-Zero(基础型)通过纯强化学习(Reinforcement Learning, RL)训练范式实现,跳过了传统监督微调(Supervised Fine-Tuning, SFT)预处理阶段,在数学推理、逻辑推导等复杂任务中展现出卓越的zero-shot推理能力。DeepSeek-R1(增强型)创新性地融合多阶段训练体系与冷启动数据策略,在保持RL核心优势的同时,显著提升模型综合性能,其推理能力已实现对标OpenAI顶尖模型。
2025-03-05 00:22:27
1271
原创 教你把Deepseek推理性能翻倍
AI不会管你要求生成多少字,而是有个完成度的概念,当他认为他生成的内容会满足你的需求时,就不会再理睬你的字数而直接中断生成。有的,给出字数会让把生成内容控制在一个范围内,毕竟完成度还在的。这个是我偶然的发现,之前玩黑神话,金蝉子给黄梅说的说人话可以用在这里。1份为10%,也就是10%提示词,60%文档,30%给生成的内容。这个指令是为了让AI更全面的分析问题,比如我想让买个电暖气,是不是智商税。1.触发预判模式,假设性问题(如果,,,会不会,,,)2.预言家模式,预判未来(如果,,,会发生什么)
2025-02-23 12:11:17
2610
原创 DeepSeek开源多模态大模型Janus-Pro部署
我找了个网图,由于担心版权问题我没有发全,同时你会发现AI它可以识别出来P图。本人家用电脑为1060,因此部署的7B模型。配置高的可以考虑更大参数的模型。
2025-02-09 22:58:22
1391
原创 MINIRAG: TOWARDS EXTREMELY SIMPLE RETRIEVAL-AUGMENTED GENERATION论文翻译
MINIRAG:朝着极简的检索增强生成方法迈进ABSTRACT。
2025-02-01 22:00:40
916
原创 GraphRAG论文解读
人类在各个领域的成就依赖于我们阅读和推理大量文档的能力,这种能力通常能得出超越文本本身所陈述内容的结论。微软根据上图结论和自身的数据,做了下图的尝试。Graph RAG 管道使用了由 LLM 生成的源文档文本的图索引。这个索引包含了节点(例如实体)、边(例如关系)和协变量(例如声明),这些元素通过针对数据集领域的 LLM 提示被检测、提取并总结出来。
2024-08-26 02:29:07
1476
原创 windows删除不了的一些长名字文件,为什么python可以删除?
因为windows系统要求260字符,文件名很长的文件在路径上超过了260但是文件系统符合低于255的要求。python的一些库调用的是文件系统库,因此可以删除。
2024-08-25 15:16:58
391
原创 LivePortrait 本地部署教程
强大且开源的可控人像AI视频生成项目,在Github上。1.将其裁剪为1:1 的宽高比(例如 512×512 或 256×256 像素),或通过 启用自动裁剪–flag_crop_driving_video。–scale_crop_driving_video、–vy_ratio_crop_driving_video选项来调整比例和偏移量2.重点关注头部区域,与示例视频类似。3.尽量减少肩部运动。4.确保参照视频的第一帧是正面且表情中性。
2024-07-25 01:52:17
997
原创 制作显卡版docker并配置TensorTR环境
cudnn是NVIDIA推出的用于自家GPU进行神经网络训练和推理的加速库,用户可通过cudnn的API搭建神经网络并进行推理,cudnn则会将神经网络的计算进行优化,再通过cuda调用gpu进行运算,从而实现神经网络的加速(当然你也可以直接使用cuda搭建神经网络模型,而不通过cudnn,但运算效率会低很多)tensorrt其实跟cudnn有点类似,也是NVIDIA推出的针对自家GPU进行模型推理的加速库,只不过它不支持训练,只支持模型推理。(训练需要精确,推理不需要那么精确)怎么查自己电脑的cuda?
2024-07-14 15:06:59
823
原创 谷歌内置AI部署
使用下载的浏览器依次导航到下面两个地方,然后点击enablebypass以及enable,然后重启浏览器。一般它会提示你重启。找到Device Model结尾的说明成功了,如下图所示(博主为了测试删除了原来的模型重新来了一遍)注意这个目前可以离线使用,再也不用为了查个东西上网了。注意这个版本不需要卸载之前版本。
2024-07-11 02:56:51
2076
原创 DB-GPT Docker部署
本地部署大模型,可离线下载后放置DB-GPT/models目录下(启动容器后docker cp即可)。docker cp后别着急提交新镜像,可能会出现要安装其他包。
2024-06-27 15:34:12
2292
4
原创 ChatTTS源码部署
在构建和运行chatTTS项目时,我遭遇了一些报错。经过一系列的自查和网上搜索,我发现了一个由社区提供的补丁,用于解决我所遇到的特定问题。我下载了该补丁,并按照说明将其放置在项目目录/models/pzc163/chatTTS/asset/文件夹内。千万记住,放到/models/pzc163/chatTTS/asset/下,其他目录认不出来。cuda版本的torch以及N卡驱动安装 或者 CPU版torch。python版本>=3.9。
2024-06-26 23:55:10
639
原创 docker基础
Docker 最初是 dotCloud 公司创始人 Solomon Hykes (opens new window)在法国期间发起的一个公司内部项目,它是基于 dotCloud 公司多年云服务技术的一次革新,并于 2013 年 3 月以 Apache 2.0 授权协议开源 (opens new window),主要项目代码在 GitHub (opens new window)上进行维护。Docker 项目后来还加入了 Linux 基金会,并成立推动 开放容器联盟(OCI)。
2024-06-15 16:04:32
970
原创 HuggingFace换源
进入huggingface的主页然后找到设置(setting)点击show以后,获取token。在需要换源的文件前加上下列代码。在需要换源的文件前加上下列代码。
2024-05-19 05:07:43
2412
原创 Langchain实战
LangChain是一个基于大语言模型(如ChatGPT)的Python框架,专为构建端到端语言模型应用而设计。它提供了一套全面的工具、组件和接口,旨在简化与大型语言模型(LLM)和聊天模型的交互过程,从而轻松创建出功能强大的应用程序。LangChain不仅方便管理语言模型的交互,还能将多个组件灵活链接,满足各种应用场景的需求。使用LangChain,您可以更加高效地构建出具有创新性和实用性的语言模型应用。(这个就是langchain配合文心生成的介绍)
2024-05-08 16:11:21
1365
原创 Meta Llama 3本地部署
下载完后在根目录进入命令终端(windows下cmd、linux下终端、conda的话activate)然后放到C:\Windows\System32 下。不要控制台,因为还要下载模型。在验证哪里直接输入刚才链接即可。如果报错没有wget,则。创建chat.py脚本。
2024-04-23 22:36:58
1505
原创 SadTalker AI部署教程
然后git clone https://github.com/Winfredy/SadTalker.git。然后在根目录下替换即可。然后放到源代码根目录。
2024-04-21 08:04:26
499
原创 MetaGPT——一个面向编程的多智能体框架
MetaGPT,作为一种多智能体框架,以其独特的方式引领着这一领域的发展。它利用标准作业程序(SOP)来协调基于大语言模型的多智能体系统,实现了元编程技术的突破。该框架通过模拟一个虚拟软件团队,将智能体赋予了不同的角色,如产品经理、架构师、项目经理、工程师、质量工程师等,并通过引入SOP作为开发流程,使这些智能体能够高效地协同工作。MetaGPT的核心理念是将多智能体视为一个智能体社会。在这个社会中,智能体、环境、标准流程(SOP)、通信和经济共同构成了其运作的基石。
2024-04-08 13:41:45
3267
原创 NebulaGraph基础(默认看了入门篇)
为啥这个常用,因为有的编码为gbk有的UTF甚至还有公司自定义编码,这是为了不乱码(目前可用的字符集为utf8和utf8mb4。集合运算符前后的查询语句中定义的变量名及顺序必需保持一致,例如RETURN a,b,c UNION RETURN a,b,c中的a,b,c的名称及顺序需要保持一致。请注意left和right的顺序,A-B表示在集合 A 中,但是不在集合 B 中的元素。如果登录的用户角色是GOD,或者有权访问该图空间的ADMIN,则返回该图空间内除GOD之外的所有用户角色信息。
2024-02-28 17:59:32
1083
2
原创 NebulaGraph入门
NebulaGraph 是一款开源的、分布式的、易扩展的原生图数据库,能够承载包含数千亿个点和数万亿条边的超大规模数据集,并且提供毫秒级查询。nGQL是 NebulaGraph 使用的的声明式图查询语言,支持灵活高效的图模式,而且 nGQL 是为开发和运维人员设计的类 SQL 查询语言,易于学习。
2024-02-28 15:54:41
1572
原创 nebula容器方式安装:docker 安装nebula到windows
network nebula-docker-compose_nebula-net这里的参数根据查询的结果更改,比如我要改成 nebula-docker-compose-master_nebula-net。启动成功后,在浏览器地址栏输入 http://ip address:7001(命令行中用 ipconfig ),在浏览器窗口中能看到以下登录界面,表示已经成功部署并启动 Studio。进入nebula-graph-studio-v3.1.0目录。进入 nebula-docker-compose根目录。
2024-02-27 10:15:33
1240
预处理(JAVA实现C语言预处理程序).zip
2019-12-22
JSTL用到的jstl.jar,standard.jar
2020-10-10
管理系统的模板(WEB).zip
2020-06-10
java的向上转型(学校教的)
2020-01-05
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅