- 博客(25)
- 收藏
- 关注
原创 大模型 MCP:让 AI 从 “键盘侠” 变 “行动派” 的魔法协议
最近大模型领域的MCP(model context protocol)炒得沸沸扬扬,有好多小伙伴来找我,想让通俗的讲讲什么是MCP,这东西与之前的function call技术,以及agent有什么区别。这个比较可以看出,MCP和Agent有本质的区别,MCP更像是 “工具箱”,提供螺丝刀、扳手,而Agent 是 “工程师”,用工具箱组装机器人。MCP 会帮模型记笔记。可以看出,如果比作开车的话,MCP 是“公共高速公路”,所有车都能开,而Function Call 是 “私人车道”,只有自家车能走。
2025-05-08 15:01:03
684
原创 OS-Genesis:基于逆向任务合成的 GUI 代理轨迹自动化生成
OS-Genesis 提供了一种高效、无监督、泛化能力强的 GUI 代理训练方案。通过逆向任务合成(RTS)和轨迹奖励模型(TRM)解决了 GUI 代理训练数据稀缺的问题,并在多个实验环境中优于现有方法,为构建更智能的自动化 GUI 代理提供了重要技术支撑。
2025-02-17 11:17:05
1363
原创 【元脑技术详解】改进三大关键环节,构建高精度大模型RAG知识库
本文从文档解析、数据向量化再到信息检索三大核心环节,解读了提升RAG系统性能的关键技术路径。经过企业大模型开发平台元脑企智EPAI实战检验,通过在上述环节的技术优化,能够为企业级RAG应用提供精准可靠的技术支撑,帮助企业更好地利用沉睡的数据,驱动业务创新。
2025-02-17 09:05:27
929
原创 NeuIPS 2024 | CoT推理的新突破:推理边界框架(RBF)
本研究提出了推理边界框架(Reasoning Boundary Framework, RBF),该框架提出了一种全新的方法来量化LLMs的推理能力,并提供优化路径。
2025-01-27 12:10:40
608
原创 NeuIPS 2024 | RL-GPT:强化学习与代码策略的创新结合
本文创新性地结合了强化学习(RL)与代码策略(Code-as-Policy),为解决复杂任务提供了全新的思路。在这篇博客中,我们将详细解读RL-GPT的框架设计、关键技术、实验成果和实际意义,探索它如何突破传统方法的局限。
2024-12-31 16:12:38
1106
原创 唤醒企业沉睡的知识,元脑企智EPAI三步高效创建大模型RAG
借助浪潮信息元脑企智EPAI企业大模型开发平台,企业仅需三步即可高效创建大模型RAG,让企业内部积累的大量数据得到有效利用,唤醒企业沉睡的知识,显著提升大模型回答的准确性。
2024-12-30 14:18:26
895
原创 NeuIPS 2024 | YOCO的高效解码器-解码器架构
YOCO通过创新性的解码器-解码器架构,突破了长序列语言模型在推理阶段的内存和延迟瓶颈。在保持模型性能的前提下,显著提升了显存利用率和推理速度。未来,YOCO的设计理念或许还可以拓展到更多任务场景中,如长文本生成、对话系统等需要高效长序列处理的领域。
2024-11-29 09:54:26
1457
原创 浪潮信息“源”Embedding模型登顶MTEB榜单第一名
近期,浪潮信息开源了Yuan系列Embedding模型(Yuan-Embedding-1.0),该模型在中文语义向量评测基准——C-MTEB(Chinese Massive Text Embedding Benchmark)的Retrieval任务中荣获第一名,为用户加速基于大模型的智能应用创新提供了有力支持。
2024-11-15 11:15:10
1484
原创 Selective Generation for Language Models 语言模型的选择性生成
该论文提出了一个新的框架——选择性生成,通过逻辑蕴含来缓解生成模型在语义准确性上的缺陷。NSeGen 算法在理论和实验上均证明了其在控制假阳性率和提高生成准确性方面的优势。虽然当前方法依赖于i.i.d.假设,并且蕴含标签的获取成本较高,但论文通过半监督学习减轻了这些限制,为未来的生成式语言模型可信度研究提供了有力支持。
2024-11-01 09:48:17
830
原创 源2.0-M32大模型适配AutoGPTQ工具及量化&推理教程
AutoGPTQ是一个开源工具包,专注于简化大规模语言模型(LLMs)的量化过程。它基于高效的GPTQ算法开发,主要使用Python编程语言,并依托PyTorch框架来实现量化功能。AutoGPTQ的设计目标是为开发者和研究人员提供一个易于使用的API接口,即使对量化技术不太了解的用户也能轻松进行模型量化。通过采用仅量化权重的方式,该工具包在尽量减少性能损耗的情况下,缩减了模型体积,提升了部署的效率。
2024-09-29 23:43:48
1673
原创 源2.0全面适配百度PaddleNLP,大模型开发开箱即用
近日,源2.0开源大模型与百度PaddleNLP完成全面适配。用户通过PaddleNLP,可快速调用源2.0预训练大模型,使用源2.0在语义、数学、推理、代码、知识等方面的推理能力,也可以使用特定领域的数据集对源2.0 进行微调,训练出适合自身业务需求的大模型。
2024-09-29 10:50:43
1885
1
原创 源2.0-M32大模型发布4bit/8bit量化版! 运行显存仅需23GB,性能可媲美LLaMA3
近日,浪潮信息发布源2.0-M32大模型4bit和8bit量化版,性能比肩700亿参数的LLaMA3开源大模型。4bit量化版推理运行显存仅需23.27GB,处理每token所需算力约为1.9 GFLOPs,算力消耗仅为同等当量大模型LLaMA3-70B的1/80。
2024-08-23 16:53:22
500
原创 新版本源2.0大模型发布:Yuan2-2B-July-hf
近日,浪潮信息的新一代基础语言大模型源2.0 迎来了重要更新。浪潮信息正式发布了 Yuan2-2B-July-hf 模型,标志着源2.0系列模型在性能和功能上的进一步提升。这一版本将为开发者和研究人员提供更强大的工具,以满足各种语言处理需求。
2024-08-16 16:50:27
1159
原创 网页端即可快速部署!—— 基于飞桨平台的源大模型部署方法
随着近年来大语言模型的迅猛发展,模型的规模和复杂度也在不断增长。随之而来的是模型参数数量的激增,例如源2.0系列模型从最开始的2B模型不断扩展到51B,乃至102B。这不仅对计算资源提出了更高的要求,也给本地部署带来了前所未有的挑战。在这样的背景下,将模型部署在在线平台成为了一种更加方便快捷的选项。首先,本地部署大型模型需要强大的硬件支持,包括高性能的CPU/GPU和大量的存储空间。然而,这样的硬件配置往往成本高昂,且不易于维护和升级。
2024-07-29 15:04:46
1993
原创 源大模型的快速部署与高效推理——GGUF格式模型介绍与使用教程
源2.0 是浪潮信息发布的新一代基础语言大模型。我们开源了全部的3个模型源2.0-102B,源2.0-51B和源2.0-2B。并且我们提供了预训练,微调,推理服务的相关脚本,以供研发人员做进一步的开发。源2.0是在源1.0的基础上,利用更多样的高质量预训练数据和指令微调数据集,令模型在语义、数学、推理、代码、知识等不同方面具备更强的理解能力。更多详情请参考Yuan2.0模型技术报告和Github。
2024-07-04 17:36:47
4821
原创 克服资源障碍:大模型量化技术与高效部署策略全解析
本文综述了大模型量化的方法、适用场景以及最新的研究进展,为读者解决部署使用大模型时遇到的计算资源不足的情景提供了一种视角
2024-06-27 17:35:15
2060
原创 YuanChat全面升级:知识库、网络检索、适配CPU,手把手个人主机部署使用教程
浪潮信息YuanChat工具全面升级,支持知识库、网络检索、适配CPU,轻松在个人主机部署智能助手
2024-05-27 11:45:45
1187
原创 Yuan2.0千亿大模型在通用服务器上的高效推理实现——以NF8260G7服务器为例
本文总结了当前千亿参数级别的大模型在通用服务器上推理部署的难点,并通过张量并行和NF4量化方法实现了Yuan2.0-102B模型在NF8260G7服务器上的部署
2024-05-13 10:53:35
1358
1
原创 业界首个开源千亿模型适配Langchain框架,基于Yuan2.0搭建本地大模型应用
近日,Yuan2.0全系列大模型完成了对Langchain框架的适配,用户可以基于Langchain框架快速开发出各类大模型应用。同时,借助Langchain这套成熟的框架,开发者仅需修改少量代码即可完成后端大模型平滑迁移。Langchain简介。Langchain 是一个利用语言模型开发应用程序的框架。
2024-03-28 16:44:05
1535
原创 Yuan2.0大模型,联合向量数据库和Llama-index,助力检索增强生成技术
利用Yuan大模型、向量数据库和LlamaIndex助力大模型检索增强生成技术,为NLP领域开辟了一个可能性领域。这个管道不仅可以理解和生成文本,而且还利用庞大的信息数据库来增强其响应,使其在聊天机器人、推荐系统等各种应用程序中具有难以置信的强大功能。然而,旅程并没有就此结束。NLP的世界正在迅速发展,保持最新趋势和技术的更新至关重要。这里讨论的实现是进入更广泛、更复杂的语言理解和生成世界的垫脚石。不断试验,不断学习,最重要的是不断创新。
2024-03-13 17:48:23
2908
5
原创 基于TensorRT-LLM的Yuan 2.0推理服务部署
自Yuan2.0大模型发布以来,团队一直致力于提高大模型的性能和效率。最近我们完成了基于TensorRT-LLM推理框架的Yuan2.0大模型部署实践,一起来尝试一下吧!TensorRT-LLM是2023年10月新发布的大模型推理部署框架,用其部署Yuan2.0大模型一方面可以显著提高模型推理速度和减少延时,让用户可以更快的获取推理结果;另一方面,利用TensorRT-LLM灵活的插件功能,使得用户在部署Yuan2.0时更有效的利用硬件资源从而节省硬件成本。
2024-02-28 12:08:23
1515
原创 Yuan2.0完成FastChat框架适配,内置模板实现多轮对话
近日,Yuan2.0开源大模型又出更新,增加了对话模板,并预置了多轮对话模板,已经在本地聊天工具上进行了集成。可以通过打开功能体验多轮对话。不过本着将简单留给用户,将复杂留给自己的开发原则,我们还是决定进一步适配有大量用户基数的FastChat框架,让开发者能够在不改动原有代码的情况下便捷地使用yuan2.0基础模型。与优秀的项目站在一起,使我们变得更加优秀。
2024-02-02 01:40:59
1704
转载 【转载】快速上手!LLaMa-Factory最新微调实践,轻松实现专属大模型
文章转载自浪潮圈Yuan2.0()是浪潮信息发布的新一代基础语言大模型,该模型拥有优异的数学、代码能力。自发布以来,Yuan2.0已经受到了业界广泛的关注。当前Yuan2.0已经开源参数量分别是102B、51B和2B的3个基础模型,以供研发人员做进一步的开发。LLM(大语言模型)微调方案是解决通用大模型落地私有领域的一大利器。基于开源大模型的微调,不仅可以提升LLM对于指令的遵循能力,也能通过行业知识的引入,来提升LLM在专业领域的知识和能力。
2024-01-22 18:24:05
2243
4
原创 零基础Windows部署YuanChat和Yuan2.0-2B大模型
另外,我们同时提供了已经修改好的文件,分别为config_cpu.json和yuan_hf_model_cpu.py,可以将这两个文件分别重命名为config.json和yuan_hf_model.py,替换原有的两个文件即可。模型在推理、代码、对话等领域,均取得了显著的成果,其中在HumanEval数据集上的评测准确率由54.9%提升至61.5%,在GSM8K数据集上的评测准确率由66.6%提升至70.2%。模型进行了优化升级,在微调数据集构成上进行了整体和局部的配比调优,均衡模型在各领域的性能表现。
2024-01-22 17:07:49
2570
3
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人