- 博客(112)
- 资源 (4)
- 收藏
- 关注
原创 EXPLAIN:用实体摘要为RAG“开外挂“,让文档问答又快又准
**摘要增强检索技术EXPLAIN通过自动提取文档实体并生成结构化摘要,有效解决了RAG系统中的信息碎片化问题。该方法在保持低推理成本的同时,显著提升了问答准确率(HotpotQA F1从56.70提升至60.33)。核心创新在于:1)基于名词短语的通用实体提取;2)生成独立摘要项而非聚合摘要;3)用高相关性实体摘要替换低分文档片段。实验表明,该方法在多个基准数据集上优于传统RAG方案,且推理成本仅为长上下文方案的42%。
2026-01-06 22:23:21
582
原创 MegaBeam-Mistral-7B:扩展上下文而非参数的高效长文本处理
MegaBeam-Mistral-7B通过创新方法将7B模型的上下文扩展至512K tokens,成为首个无需RAG即可高效处理超长文本的开源模型。该研究采用四阶段训练流程:长上下文预训练(70%代码数据)、RoPE theta调优、bf16精度修复和长上下文SFT。系统级优化包括Ring Attention序列并行和XLA编译器调优,使单卡A100即可处理超长序列。论文源于AWS真实业务需求,在合规监控等场景展现优势,相比传统方案成本更低、部署更易。核心突破在于"扩展上下文而非参数"的
2026-01-06 19:59:10
415
原创 MedPlan: 基于两阶段RAG的个性化医疗治疗方案生成系统
MedPlan提出了一种基于两阶段RAG的个性化医疗治疗方案生成系统,通过模拟临床医生的SOAP诊断流程,显著提升了治疗方案的准确性和个性化水平。该系统首先基于患者主观症状和客观检查数据生成临床评估,再结合历史记录和相似病例生成治疗方案。实验表明,MedPlan在BLEU等指标上较基线方法提升约6倍,临床医生评估显示其方案质量提升66%。该系统已部署实际临床环境,采用React前端和FastAPI后端架构,为医疗AI领域提供了更符合临床实践的技术方案。
2026-01-06 19:43:49
512
原创 HierGR:美团外卖搜索的层级语义生成式检索系统
HierGR通过层级RQ-VAE生成语义ID,结合查询缓存和混合检索策略,在美团外卖场景实现了**复杂意图订单量+0.68%**的提升。
2026-01-06 19:33:49
614
原创 Hard Negative Mining: 面向企业RAG系统的领域特定检索优化框架
摘要:本研究提出Hard Negative Mining框架,针对企业RAG系统中的领域特定检索问题,通过多模型嵌入集成(6种双编码器模型)和PCA降维(保留95%方差)生成语义表示,创新性地采用双条件筛选策略选择高质量硬负样本。实验表明,该方法在企业内部数据集上MRR@10达到0.64,相比基线提升42%,且跨金融、气候等领域保持33-45%的性能提升。核心贡献包括:1)多模型互补表示解决语义不匹配;2)双条件选择策略提升负样本质量;3)高效PCA降维优化。局限在于长文档处理和跨语言支持,未来将探索分层嵌
2026-01-06 18:03:45
419
原创 DISCOG:知识图谱+LLM双引擎驱动的法律电子取证系统
DISCOG:知识图谱与LLM协同的法律电子取证系统 DISCOG创新性地将法律文档检索问题转化为知识图谱链接预测任务,结合图神经网络(GNN)与大语言模型(LLM)实现高效电子取证。该系统首先构建包含文档、主题、关键词和人员的异构知识图谱,通过GraphSAGE等GNN方法预测文档-主题关联关系,再使用GPT-3.5进行推理验证。在TREC Legal Track数据集上的实验表明,GraphSAGE模型取得0.83的F1分数,显著优于传统检索方法。实际部署中,该系统可节省98%的文档审查成本,为法律科技
2026-01-06 17:58:36
610
原创 ComRAG: 面向工业级实时社区问答的动态向量存储RAG框架
本文提出ComRAG框架,针对工业级实时社区问答系统面临的动态知识管理和历史交互利用问题,设计了一种基于三层向量存储的检索增强生成架构。该系统整合静态领域知识和动态历史问答,通过质心聚类机制实现高效内存管理,并采用自适应温度调优策略优化生成质量。在MSQA、ProCQA和PolarDBQA数据集上的实验表明,ComRAG在回答质量和处理效率上均优于现有方法,为工业部署提供了可行的解决方案。
2026-01-06 17:46:07
745
原创 CiteFix: 通过后处理引用校正提升RAG系统准确率
摘要 CiteFix提出了一种轻量级后处理方法,用于提升RAG系统中引用标注的准确性。研究发现,80%的不可验证事实源于引用归属错误而非幻觉。论文设计了六种校正算法,包括关键词匹配、BERT语义评分和注意力图复用等,形成从简单到复杂的解决方案谱系。实验表明,最优方法可将引用准确率提升至90%以上,同时保持毫秒级延迟。创新性地提出MQLA综合评估指标,严格衡量响应质量。该方法无需修改现有RAG架构,可直接部署于生产环境,为解决LLM引用可靠性问题提供了实用方案。
2026-01-06 17:30:31
203
原创 AUTOSUMM: 银行场景的LLM对话摘要与幻觉检测框架
本文提出AUTOSUMM框架,专为银行场景设计的大语言模型对话摘要系统。该系统通过两阶段处理流程(初步摘要生成与幻觉检测)确保金融对话摘要的准确性和可靠性。实验表明,AUTOSUMM在银行客服对话数据集上优于基线模型,有效减少25%的幻觉内容。该框架为金融领域对话系统提供了可解释、可验证的摘要解决方案,具有实际应用价值。
2026-01-06 17:11:47
695
原创 18美元让AI智能体越用越聪明?腾讯优图开源的Youtu-Agent做到了
腾讯优图开源Youtu-Agent框架,以18美元低成本实现AI智能体持续进化。该框架采用三层架构设计,支持自然语言生成智能体配置,通过Workflow和Meta-Agent双模式实现81%工具合成成功率。创新性的Training-free GRPO技术仅需100样本和18美元成本,就能让智能体性能提升2.7%-5.4%,无需修改模型参数。实验显示其WebWalkerQA任务准确率达71.47%,为智能体开发提供了高效低门槛解决方案。
2026-01-06 13:07:44
524
原创 SAGE:让AI智能体学会“积累经验“的强化学习新框架
SAGE框架提出了一种新型强化学习方法,通过构建"技能库"使AI智能体能够积累和复用经验。该研究由威斯康星大学麦迪逊分校和AWS团队合作完成,基于GRPO(Group Relative Policy Optimization)算法,创新性地将技能库与强化学习相结合。传统LLM智能体面临经验无法积累、效率低下等问题,而SAGE通过统一技能表示格式和Sequential Rollout机制,使智能体能够像人类一样存储和调用已学技能。实验表明,该方法显著提升了智能体的任务执行效率和适应性,为A
2026-01-04 00:51:58
698
原创 DeepSeek开年王炸:mHC架构——用流形约束重构残差连接的革命性突破
标准残差连接之所以稳定,关键在于其恒等映射特性:当变换函数FF输出为零时,信号可以无损地通过。通俗理解:这就像一个"安全阀"——如果某一层不知道该怎么处理信息,它可以选择"什么都不做",让信息原样通过。xl1xl0xlxl1xl0xl网络可以"安全地"增加深度,最坏情况也只是多几个"什么都不做"的层训练初期,网络可以先保持恒等映射,然后逐渐学习有用的变换在数学中,**流形(Manifold)**是一个局部看起来像欧几里得空间的几何对象。听起来很抽象?
2026-01-04 00:46:04
813
原创 UAE:让AI的“理解“与“创作“相互成就的统一多模态框架
UAE(Unified Auto-Encoder)框架首次证明:AI的"看图说话"能力和"文字作画"能力不仅可以共存,更能相互促进——理解越强,生成越好;生成越好,理解越强!看图说话(理解能力):看一张照片,告诉你"这是一只橘猫正在阳台上晒太阳"文字作画(生成能力):听你说"画一只橘猫在阳台上晒太阳",然后画出来这种同时具备"理解"和"生成"能力的AI,就叫做统一多模态模型(Unified Multimodal Model, UMM)。
2026-01-04 00:25:08
593
原创 阶跃星辰重磅发布:32B参数模型如何实现“深度研究“自动化?
阶跃星辰发布32B参数Step-DeepResearch模型,实现深度研究自动化。该技术可将行业调研报告生成成本降至0.5元,大幅提升研究效率。模型通过智能搜索、信息整合与交叉验证,完成原本需要数天的人工研究任务。这一突破性技术将重塑专业研究领域的工作方式。
2026-01-04 00:16:10
291
原创 腾讯优图重磅发布:20亿参数小模型如何击败80亿大模型?
腾讯优图发布Youtu-LLM轻量级大语言模型,仅20亿参数却超越80亿参数模型的性能表现。该研究通过创新架构设计释放了轻量级模型的潜力,在保持高效推理的同时实现了更强的任务处理能力。论文已在arXiv发布,相关代码和模型权重已在GitHub和Hugging Face开源。这一突破为边缘计算场景下的高效AI部署提供了新思路。
2026-01-03 23:21:26
775
原创 《Why Language Models Hallucinate》论文解读
就像学生面对难题时会猜测一样,大型语言模型在不确定时也会进行猜测,生成看似合理却错误的表述,而非承认自身的不确定性。这种“幻觉”现象即便在最先进的大模型中也依然存在,并且会损害用户对模型的信任。我们认为,语言模型产生幻觉的原因在于,其训练与评估流程更倾向于奖励“猜测行为”,而非奖励“承认不确定性的行为”;同时,我们也分析了现代训练流程中导致幻觉产生的统计层面原因。幻觉并非难以解释的神秘现象——它本质上源于二分类任务中的错误。
2025-09-10 16:42:33
1242
原创 CoT让Transformer打破推理极限的讨论
通过 CoT,Transformer 几乎可以解决任何问题,这是因为它能够模拟更复杂的推理过程,从而超越了 AC0 电路的局限。LeCun 进一步表示,人类推理链的简洁性和效率与 CoT 的方法不同,而且 AI 目前只能进行暴力搜索,而没有人类的 “启发式” 思考和 “直觉”。这意味着传统的 Transformer 模型能够处理的问题范围有限,只能解决一定复杂度的问题。这项工作暗示着,CoT为更强大的LLM推理提供了新的思路,CoT或将成为未来LLM发展的重要方向,而且很可能闪烁着AGI的火花。
2024-09-25 17:47:07
1862
原创 揭秘OpenAI o1:AI的超越时刻与技术突破
OpenAI官方发布了OpenAI o1 团队的采访视频,分享了 AI 模型超越人类的惊人时刻,以及背后的开发故事和技术挑战。来自艾伦研究所的科学家Nathan Lambert对这个视频,做了一个精彩亮点的总结。
2024-09-23 14:21:02
1207
原创 大模型预训练技巧
领域模型 / 专家模型 就是在某一个专业领域性能特别好的模型,可能包括法律、医学、教育、role-play 等等。一般来说,领域模型比较重要的环节是 RAG,我们需要有一个特别高精的检索库,来辅助模型做一些专业的回答。这也就是说,做好 sft 和 ppo 似乎就可以了?其实,这么想也基本正确,因为大部分领域模型所处理的任务场景,80% 都是模型的通用能力能 cover 的。以法律大模型为例,“判断是否是法律问题、总结律师发言重点、提取法官判决结果等等?
2024-09-12 12:57:19
2819
1
翻译 思考高质量的人类数据【译】
原文:Thinking about High-Quality Human Data**高质量的数据是现代深度学习模型训练的燃料。**大多数任务特定的标记数据来自人工注释,例如分类任务或 RLHF 标记(可以构建为分类格式)用于LLM对齐训练。后期的许多 ML 技术可以帮助提高数据质量,但从根本上讲,人类数据收集涉及对细节的关注和谨慎的执行。人们知道高质量数据的价值,但不知何故,我们有这种印象:“每个人都想做模型工作,而不是数据工作”(Sambasivan 等人,2021 年)。图 1. 实现高数据质量的两种
2024-08-20 22:48:52
594
翻译 大模型幻觉的原因分析和缓解方法
OpenAI 的华人科学家翁荔在其最新的 Blog 中,提出了大型语言模型(LLM)的 “外在幻觉” 问题。她将 LLM 的幻觉问题具体化为模型输出内容是虚构的,并且不基于所提供的上下文或世界知识。上下文内幻觉:模型的输出应该和上下文里的内容一致,但有时输出和上下文内容不一致,这就叫上下文内幻觉。外在幻觉:模型的输出应该基于之前预训练的数据集,然而,由于数据集很大,每次生成内容时去检索和识别冲突的成本很高。
2024-08-20 20:12:32
2036
原创 将 HuggingFace 模型转换为 GGUF 及使用 ollama 运行 —— 以 Qwen2-0.5B 为例
GGUF 格式的全名为(GPT-Generated Unified Format),提到 GGUF 就不得不提到它的前身 GGML(GPT-Generated Model Language)。GGML 是专门为了机器学习设计的张量库,最早可以追溯到 2022/10。其目的是为了有一个单文件共享的格式,并且易于在不同架构的 GPU 和 CPU 上进行推理。但在后续的开发中,遇到了灵活性不足、相容性及难以维护的问题。使用ollama create命令创建自定义模型。
2024-08-02 23:14:19
21809
4
原创 RAG原理、综述与应用全解析【万字长文】
1.1 定义检索增强生成 (Retrieval-Augmented Generation, RAG) 是指在利用大语言模型回答问题之前,先从外部知识库检索相关信息。早在2020年就已经有人提及RAG的概念(paper:Retrieval-augmented generation for knowledge-intensive nlp tasks),首版发布在arxiv于2020年5月,当年还是seq2seq的时代,但实验就已经发现,通过检索,能快速从海量知识中找到和原本问题相关的知识,借助知识带来的信息能提
2024-04-03 14:09:10
11586
4
原创 如何设置transformers的聊天模板chat_template?
如果您喜欢这个模板,下面是一行代码的模板形式,它可以直接复制到您的代码中。如果你对 Jinja 不熟悉,我们通常发现编写聊天模板的最简单方法是先编写一个简短的 Python 脚本,按照你想要的方式格式化消息,然后将该脚本转换为模板。在为已经训练过的聊天模型设置模板时,您应确保模板与模型在训练期间看到的消息格式完全匹配,否则可能会导致性能下降。然而,请注意 Jinja 是一个通用的模板引擎,它可能会将同一行上块之间的空格视为重要,并将其打印到输出中。即使默认的聊天模板适用于您的模型,
2024-01-31 14:24:35
18194
3
翻译 ChatGPT能解决指代消解吗?
介绍下指代消极问题,英文称为Winograd Schema Challenge (WSC),是为了测试AI模型的常识推理而引入的,它一般是在一个句子中找到代词指代的对象,推理过程中需要用到世界知识和常识。下面是该问题是例子:市政府拒绝给示威者颁发游行许可证,因为[担心/鼓吹]暴力事件。谁[担心/鼓吹]暴力事件?答案: 市政府/示威者奖杯无法放进到棕色的箱子里,因为它太[小/大]了。什么东西太[小/大]了?答案: 箱子/奖杯。
2024-01-30 17:25:18
727
原创 Stable Diffusion 文生图技术原理
DDIM(Denoising Diffusion Implicit Models,去噪扩散隐式模型),DDIM和DDPM有相同的训练目标,但是它不再限制扩散过程必须是一个马尔卡夫链,这使得DDIM可以采用更小的采样步数来加速生成过程,DDIM的另外是一个特点是从一个随机噪音生成样本的过程是一个确定的过程。3. 通过反卷积得到的更大的尺寸的特征图的边缘,是缺少信息的,毕竟每一次下采样提炼特征的同时,也必然会损失一些边缘特征,而失去的特征并不能从上采样中找回,因此通过特征拼接,来实现边缘特征找回;
2023-08-25 01:22:56
7008
1
原创 文本匹配模型实验报告-text2vec
目标:在一个类似BERT的预训练语言模型基础上,监督训练一个句向量表征模型,使模型能够在文本语义匹配任务上表现最好。其中,可以利用的标注数据是常见的句子对形式,格式是“(句子1,句子2,标签)”,按照训练encoder的思路,两个句子经过encoder后分别得到向量u,v,由于预测阶段是计算的余弦相似度cos(u,v),所以思路是设计基于cos(u, v)的损失函数,让正样本对的相似度尽可能大、负样本对的相似度尽可能小。
2023-06-20 19:50:13
5678
1
原创 LIMA和QLoRA论文解读
在 1000 个精心策划的样本上对一个强大的预训练语言模型(LLaMa-65B)进行微调,可以在广泛的prompt中产生显著的、有竞争力的结果。然而,这种方法也有局限性:首先,构建这样的样本所付出的脑力劳动是巨大的,而且很难扩大规模。其次,LIMA 并不像产品级模型那样鲁棒,虽然 LIMA 通常会产生良好的反应,但对抗性prompt可能会生成错误的答复。尽管如此,这项工作表明,用简单的方法来解决复杂的对齐问题是有潜力的。
2023-05-28 23:39:24
2266
6
原创 NLP大模型微调答疑
我理解ChatGLM-6B模型是走完 “预训练-SFT-RLHF” 过程训练后的模型,其SFT阶段已经有上千指令微调任务训练过,现在我们只是新增了一类指令数据,相对大模型而已,微调数据量少和微调任务类型单一,不会对其原有的能力造成大的影响,所以我认为是不会导致灾难性遗忘问题,我自己微调模型也没出现此问题。ChatGLM-6B, LLaMA-7B模型分别是60亿参数量和70亿参数量的大模型,基本可以处理所有NLP任务,效果好,但大模型部署成本高,需要大显存的GPU,并且预测速度慢,V100都需要1秒一条。
2023-05-17 22:43:28
10271
11
原创 NLP大模型微调原理
2. 论文《Training Compute-Optimal Large Language Models》研究发现最好的性能不是在最大的模型上,而是在用了更多token的模型上,因此作者认为一个较小的模型训练的时间更长,用的token更多,能达到一样的模型效果,并且在预测时较为便宜(cheaper)。GPT等大型语言模型基于Prompt的zero shot的学习范式有一个很大的问题是,预训练的模型完成的任务是后继文本的预测,这和具体任务的要求有一些偏离,生成的结果也不一定符合人的意图。
2023-05-07 12:03:05
8352
2
原创 文本分类优化方法
文本分类是NLP的基础工作之一,也是文本机器学习中最常见的监督学习任务之一,情感分类,新闻分类,相似度判断、问答匹配、意图识别、推断等等领域都使用到了文本分类的相关知识或技术。文本分类技术在机器学习的发展过程中也不断的进行技术迭代,在开始介绍文本分类优化方法之前,我们先介绍文本分类的技术发展,有助于我们了解文本分类的技术痛点以及文本分类的技术方向。
2022-12-19 18:05:30
3536
原创 中文纠错Pycorrector是如何收获2000 Star的?
(导语)计算机行业发展至今,“开源”已逐渐成为技术茁壮成长最肥沃的土壤。而在中国,企业开源热闹非常,个人开源也方兴未艾。尽管个人开源困难重重,还是有一些开发者仍然在努力做着这样“吃力不讨好”的事情。今天的“开发者说”文章,就来自这样一位个人开发者。他做的文本纠错开源工具pycorrector,当前在GitHub上star数2165,fork数565。pycorrector主要用于音似、形似错字纠正,可用于输入法、OCR、ASR的文本错误纠正,兼容Kenlm语言模型纠错,和深度模型纠错,包括:S.
2021-05-31 17:34:52
1512
2
转载 任务型对话系统研究进展
任务型对话系统介绍我们将对话系统分成四个主要的功能:第一个是任务型对话系统,也可以认为其他都是非任务型对话系统,又可以进一步划分为聊天类、知识问答类,以及推荐类,这几个类型的机器人我们研究中心都在做。我今天主要介绍任务型的对话系统。任务型的对话机器人有很多用处,如智能汽车控制、个人助理等。组成任务型对话系统主要构成包括三模块:第一个模块为自然语言理解(这个名字不是特别好,因为我们做自然...
2018-12-06 19:55:34
2929
原创 竞赛分享-自动文摘(bytecup 2018)
自动文摘(Aduto text summarization)自动文摘,也称自动摘要生成,是NLP中较难的技术,难点很多,至今并没有一个非常让人满意的、成熟的技术来解决这个问题。介绍应用自动文摘技术应用最广的领域在于新闻,由于新闻信息的过载,人们迫切地希望有这么一个工具可以帮助自己用最短的时间了解最多的最有用的新闻。ps:为什么不直接看标题呢?因为很多新闻为了哗众取宠,故意将标题起的特别...
2018-11-09 17:24:18
3737
3
翻译 用于语法纠错的深度上下文模型
用于语法纠错的深度上下文模型徐明 编译论文地址:https://www.isca-speech.org/archive/SLaTE_2017/pdfs/SLaTE_2017_paper_5.pdf相关开源项目:https://github.com/shibing624/pycorrector摘要本文提出了一个基于递归的深层上下文模型。用于语法错误校正的神经网络(RNN)。对于特定的错...
2018-10-24 14:12:21
9895
8
原创 基于文法模型的中文纠错系统
基于文法模型的中文纠错系统徐明 编译论文地址:http://www.anthology.aclweb.org/W/W14/W14-6827.pdf 相关开源项目:https://github.com/shibing624/pycorrector摘要本文介绍了我们的系统在SIGHAN-8 Bake-Off 中的中文拼写检查(Chinese spelling check,...
2018-09-06 00:59:22
17328
2
转载 大数据精准营销中搜狗用户画像挖掘比赛——1st算法分享
作者:李恒超,李裕礞,王安然,钱凌飞,任璐,林鸿飞 ——大大黑楼战队 目录 1. 数据预处理 1.1. 停用词处理 1.2. 分词 2. 特征表示 2.1. Bag of Words 2.2. Word Embedding 2.3. Topical Word Embedding 2.4. Doc2Vec...
2018-06-27 17:23:58
7797
原创 使用kenlm工具训练统计语言模型
一、背景统计语言模型工具有比较多的选择,目前使用比较好的有srilm及kenlm,其中kenlm比srilm晚出来,训练速度也更快,而且支持单机大数据的训练。现在介绍一下kenlm的使用方法。二、使用kenlm训练 n-gram1.工具主页:http://kheafield.com/code/kenlm/ 2.工具包的下载地址:http://kheafield.com/code/ke...
2018-03-14 20:46:05
21600
24
转载 语义角色标注
语义角色标注(Semantic Role Labeling,SRL)以句子的谓词为中心,不对句子所包含的语义信息进行深入分析,只分析句子中各成分与谓词之间的关系,即句子的谓词(Predicate)- 论元(Argument)结构,并用语义角色来描述这些结构关系,是许多自然语言理解任务(如信息抽取,篇章分析,深度问答等)的一个重要中间步骤。在研究中一般都假定谓词是给定的,所要做的就是找出给定谓词的各个论元和它们的语义角
2017-09-22 12:01:41
11261
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅