- 博客(935)
- 收藏
- 关注

原创 所有人都在讨论的“DeepSeek”究竟是啥,我们应该如何正确使用(建议收藏)
最近一夜爆火的DeepSeek,中文名“深度求索”,引起了全网的激烈讨论,热度居高不下。
2025-02-05 17:07:34
29232

原创 Deepseek v3开源,本地仅700G可轻松运行!
根据多个基准测试,DeepSeek v3 在代码方面甚至优于 Claude Sonnet 3.5那么671B的DeepSeek V3如何本地运行尼,由于DeepSeek的框架原生采用 FP8 训练,因此仅提供 FP8 权重,预估仅700GB+显存便可轻松运行。当然也可以转换到BF16,在半精度下,需1400GB+量化到int4时需要300GB+半精度 236B的DeepSeek V2,占用 490G 显存,需要 7张 80G A100。
2024-12-28 10:35:53
12827

原创 RAGFlow安装教程 | 带你一步步搭建RAGFlow【干货分享】
AI大模型作为人工智能领域的重要技术突破,正成为推动各行各业创新和转型的关键力量。抓住AI大模型的风口,掌握AI大模型的知识和技能将变得越来越重要。学习AI大模型是一个系统的过程,需要从基础开始,逐步深入到更高级的技术。这里给大家精心整理了一份全面的AI大模型学习资源,包括:AI大模型全套学习路线图(从入门到实战)、精品AI大模型学习书籍手册、视频教程、实战学习、面试题等,资料免费分享!
2024-11-12 10:32:53
18943
3

原创 一文彻底搞懂深度学习:注意力机制(Attention Mechanism)
AI大模型作为人工智能领域的重要技术突破,正成为推动各行各业创新和转型的关键力量。抓住AI大模型的风口,掌握AI大模型的知识和技能将变得越来越重要。学习AI大模型是一个系统的过程,需要从基础开始,逐步深入到更高级的技术。这里给大家精心整理了一份全面的AI大模型学习资源,包括:AI大模型全套学习路线图(从入门到实战)、精品AI大模型学习书籍手册、视频教程、实战学习、面试题等,资料免费分享!
2024-11-07 11:41:45
24509
2

原创 一文彻底搞懂多模态:模态表示、多模态融合、跨模态对齐
AI大模型作为人工智能领域的重要技术突破,正成为推动各行各业创新和转型的关键力量。抓住AI大模型的风口,掌握AI大模型的知识和技能将变得越来越重要。学习AI大模型是一个系统的过程,需要从基础开始,逐步深入到更高级的技术。这里给大家精心整理了一份全面的AI大模型学习资源,包括:AI大模型全套学习路线图(从入门到实战)、精品AI大模型学习书籍手册、视频教程、实战学习、面试题等,资料免费分享!
2024-10-31 20:28:08
42584

原创 万字长文,带你搞懂什么是BERT模型(非常详细)看这一篇就够了!
AI大模型作为人工智能领域的重要技术突破,正成为推动各行各业创新和转型的关键力量。抓住AI大模型的风口,掌握AI大模型的知识和技能将变得越来越重要。学习AI大模型是一个系统的过程,需要从基础开始,逐步深入到更高级的技术。这里给大家精心整理了一份全面的AI大模型学习资源,包括:AI大模型全套学习路线图(从入门到实战)、精品AI大模型学习书籍手册、视频教程、实战学习、面试题等,资料免费分享!
2024-10-25 10:20:54
36170
1

原创 手把手教你Ollama 安装部署教程,一键搭建本地大模型,不挑环境、不挑配置!
macOS:Linux:Windows:AI大模型作为人工智能领域的重要技术突破,正成为推动各行各业创新和转型的关键力量。抓住AI大模型的风口,掌握AI大模型的知识和技能将变得越来越重要。学习AI大模型是一个系统的过程,需要从基础开始,逐步深入到更高级的技术。这里给大家精心整理了一份全面的AI大模型学习资源,包括:AI大模型全套学习路线图(从入门到实战)、精品AI大模型学习书籍手册、视频教程、实战学习、面试题等,资料免费分享!
2024-10-22 10:22:54
64639

原创 AI大模型 | OpenAI o1(最强推理模型)看这一篇就够了!
我们即将推出OpenAI o1,这是一种经过强化学习训练的新型大型语言模型,用于执行复杂的推理。o1在回答之前会进行思考——它可以在回应用户之前生成一个长长的内部思路链。-- Open AI 官方定义强化学习训练:o1模型的核心在于其采用了。
2024-09-20 11:07:22
14504

原创 大模型入门到进阶:什么是 RAG?为什么需要 RAG?RAG 的流程
学习AI大模型是一个系统的过程,需要从基础开始,逐步深入到更高级的技术。这里给大家精心整理了一份全面的AI大模型学习资源,包括:AI大模型全套学习路线图(从入门到实战)、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频,免费分享!
2024-08-14 09:49:08
34083
1

原创 一文了解什么是 RAG?为什么需要 RAG?RAG 的流程!
本文从大模型的局限性切入,探讨了检索增强生成架构的核心机制及其带来的好处。RAG 通过结合检索和生成能力,能从外部知识库搜索相关信息,生成更准确的回应,有效克服了大模型在知识更新上的短板。AI大模型作为人工智能领域的重要技术突破,正成为推动各行各业创新和转型的关键力量。抓住AI大模型的风口,掌握AI大模型的知识和技能将变得越来越重要。学习AI大模型是一个系统的过程,需要从基础开始,逐步深入到更高级的技术。
2024-08-01 20:54:35
9947
原创 大模型转行| 0基础如何转行做AI大模型(非常详细)收藏这篇文章就够了!
AI的兴起,正带动着各个行业的变革,很多传统重复性的工作正在被取代,面对AI大趋势,普通大学生该如何改变自己才能快速进入AI领域呢?(如计算机、数学):可直接聚焦算法、模型开发等技术岗位,强化Python、数学基础(线性代数、概率论)和框架学习(如PyTorch)。(如商科、文科):可转向AI产品经理、行业解决方案专家等岗位,需结合原专业领域知识(如金融+AI风控、教育+智能教学系统)。当然以上也不绝对,还是根据个人兴趣来决定选择技术/非技术的。
2025-05-19 22:26:05
447
原创 AI时代,Java程序员如何转行大模型应用开发?看这一篇就够了!
全民 AI 时代,AI + 所有行业已是必然趋势,在这种环境下,传统的 Java 程序员这两年的薪资缩水是很严重的,其主要原因是 Java 从业人员增多所带来的供需关系的失衡。当市场供给远远大于需求的时候,传统程序员的薪资自然就会降低很多,那问题来了,怎么才能提升自己的薪资呢?答案是必须从事热门行业的开发工作,例如大模型应用开发工程师。当别人还在卷 Java 的时候,你已经开始干大模型应用开发工程师了。那怎么才能成为大模型应用开发工程师呢?
2025-05-19 21:31:38
139
原创 程序员转行AI大模型,可以选择哪些就业岗位(非常详细)大模型入门到精通,收藏这一篇就够了!
在人工智能(AI)迅速发展的背景下,从传统的编程领域如Java程序员转向大模型开发是一个既充满挑战也充满机遇的过程。对于 Java 程序员来说,这也是一个实现职业转型、提升薪资待遇的绝佳机遇。简单来说,大模型就是具有大量参数和强大计算能力的人工智能模型,可以处理各种复杂的任务,如自然语言处理、图像识别等。想象一下,大模型就像是一个超级聪明的大脑,能够理解和处理各种信息。
2025-05-16 11:12:46
577
原创 大模型入门 | 一篇解析提示词工程(Prompt Engineering)
通过身份设定框定AI的思考边界,让输出更专业。用于规避通用型废话,提升行业针对性,适用场景:法律文书生成、医疗报告撰写、营销文案创作。【角色】你现在是拥有10年经验的母婴电商运营【任务】分析2024年Q3纸尿裤销售数据【要求】用小红书爆款笔记风格总结增长亮点。
2025-05-15 17:58:32
986
原创 大模型入门到精通!一文解析模型微调Fine-tuning
你是否困惑:为何AI既能和你聊哲学、写科幻,但面对财报里“伪装”成正常数据的债务危机,或是法律条款间环环相扣的侵权陷阱时,却像“博而不精”的优等生,答案总差半步精准?这就像一位“通才学霸”虽然知识面广,但遇到具体学科难题时也需要“补课”——而模型微调(Fine-tuning)就是给AI“精准补课”的技术。
2025-05-13 20:04:08
989
原创 智能体Agent是什么?Agent的核心能力有哪些?如何动手做AI Agent?
Agent一词,直译过来为“代理”,在AI的专业语境中,常被译为“智能体”。回顾传统聊天机器人,其主要优势在于对文字的理解与处理,能够熟练回答各类问题,完成诸如修改邮件、轻松聊天等相对简单的任务。然而,一旦面临复杂程度较高、需要多步骤协同执行且涉及与外界交互的任务时,传统聊天机器人便显得力不从心,难以有效应对。而智能体的核心使命,便是赋予AI自主完成任务的强大能力。这意味着当AI接收任务指令后,不仅要深度思考并规划出执行路径,更要切实将计划付诸实践,确保任务得以顺利推进。
2025-05-11 08:15:00
623
原创 如何构建企业级LLM应用?基于大模型的RAG应用开发与优化
随着ChatGPT的兴起,大语言模型再次走进人们的视野,其在NLP领域表现出的语言识别、理解以及推理能力令人惊叹。越来越多的行业开始探索大语言模型的应用,比如政务、医疗、交通、导购等行业。通义系列、GPT系列、LLama系列等模型,在语言交互场景下表现十分抢眼。以Gemini为代表这类大模型甚至发展出了视觉和听觉,朝着智能体的方向演化。他们在多个指标上展现的能力甚至已经超过了人类。为了解决纯参数化模型的局限,语言模型可以采取半参数化方法,将非参数化的语料库数据库与参数化模型相结合。
2025-05-10 08:30:00
1700
原创 大模型论文 | RAGEN:通过多轮RL强化学习理解 LLM Agent的自我进化
将大型语言模型 (LLM) 训练为交互式智能体面临着独特的挑战,包括长期决策以及与随机环境反馈的交互。虽然强化学习 (RL) 在静态任务中取得了进展,但多轮智能体 RL 训练仍未得到充分探索。我们提出了 StarPO(状态-思考-行动-奖励策略优化),这是一个用于轨迹级(trajectory-level )智能体 RL 的通用框架,并介绍了 RAGEN,一个用于训练和评估 LLM 智能体的模块化系统。我们对。
2025-05-09 15:35:14
648
原创 AI Agent从入门到精通(三)AI Agent典型应用领域
在这个领域,AI Agent 扮演着用户的个人助手或企业的服务代表。它们通过自然语言与用户交互,理解用户意图,并执行各种任务。强大的自然语言理解和生成能力、知识库检索、意图识别、对话管理、以及调用外部工具(如日历、音乐应用、智能家居API)的能力。
2025-05-07 07:30:00
837
原创 AI Agent从入门到精通(二)核心技术与支撑
知识图谱是一种结构化的知识表示方式,它以图的形式存储知识。图中的节点代表“实体”(如人、地点、事件、概念等),边代表实体之间的“关系”(如“出生在”、“位于”、“是…的作者”等)。这种结构化的方式使得知识易于被机器理解和处理。
2025-05-06 17:45:17
800
原创 AI Agent从入门到精通(一)AI Agent 基础概念与理论
在人工智能领域,Agent 是一个能够并通过来实现目标的计算实体。Agent 不仅仅是被动地接收指令,而是能够根据感知到的信息和内部状态做出决策并采取行动。
2025-05-06 17:44:15
700
原创 大模型就业 | 2025自然语言处理NLP就业方向指南(非常详细)看这一篇就够了!
自然语言处理(NLP,Natural Language Processing)是人工智能技术的一种,目的是让计算机能够理解、生成和处理人类的自然语言。作为人工智能的重要组成部分,NLP的应用场景很广,像智能客服、金融分析、舆情监控、医疗诊断、教育、内容推荐等领域都对NLP有旺盛的需求。由于NLP涉及到高端算法,所以相关岗位的薪资通常比较高,总体优于其他IT岗位。在一线城市、高科技公司和金融公司中,薪资优势更明显。具体到应届生,年薪范围大概在15~40万之间。
2025-05-05 19:41:46
818
原创 大模型RAG优化策略总结(二)RAG优化:查询转换、路由、问题构建、索引、生成
如果直接使用原始问题进行检索,可以因为用户的表述偏差导致检索不到相关的文档。多查询重写策略的核心思想是,从而提高检索系统对用户意图的覆盖能力。这种方法能有效解决单一查询可能存在的表述偏差或信息不全问题。整体流程如下所示:由于需要转换问题一般较小,以及生成子问题时对 LLM 的能力要求并不高,在实际的 LLM 应用开发中,0调用样例如下:在多查询重写策略中,每个子问题都会检索出相应的文档片段。针对如何合并这些文档的问题,便延伸出多查询结果融合策略。
2025-05-04 09:30:00
1006
原创 大模型RAG优化策略总结(一)RAG流程简介
对原始数据进行清洗和处理,然后将处理后的数据转化为检索模型可以使用的格式,最后存储在对应的数据库中。将用户的问题输入到检索系统中,从数据库中检索相关信息。对检索到的信息进行处理和增强,以便生成模型可以更好地理解和使用。将增强后的信息输入到生成模型中,生成模型根据这些信息生成答案。
2025-05-03 08:00:00
544
原创 大模型核心概念 | 嵌入模型(Embedding)、向量模型(Vector Model)
参考地址:MTEB Leaderboard - a Hugging Face Space by mteb。
2025-05-02 08:30:00
1193
原创 大模型论文 | Agent 综述!MetaGPT、Mila、斯坦福、耶鲁、谷歌半年共同撰写
2025 年,Agent 的热度持续升高,无论是 MCP 协议的普及让整个 Agent 的生态被打开,还是 A2A 协议的发布,让我们对未来多 Agents 的生态充满了期待。但目前大部分 Agent 仅是基于 LLM 的简单延伸,距离真正的通用的智能尚有距离,在目前的设计下,面对复杂的真实世界,Agent 面临着推理规划、长期记忆、自主学习以及安全对齐等核心能力不足的问题。
2025-05-01 09:30:00
693
原创 强化学习从入门到精通!看这一篇就够了
强化学习(Reinforcement Learning,RL)是机器学习的,与并列。它最大的特点,是通过与环境互动,在不断试错中“学习”如何做出最优决策。强化学习本来是行为心理学中的概念,20世纪70-90年代,随着计算机科学的发展,强化学习逐步被数学化和算法化。其发展的重要时间节点包括:• 1989年:Watkins提出Q-learning算法,为后续发展奠定基础。• 1990年代:蒙特卡洛方法、时序差分学习(TD Learning)等基础理论完善。
2025-04-30 16:32:41
1286
原创 大模型开发平台Dify(二)如何在Dify平台搭建Agent?
在Dify平台上,通过选择模型、编写提示、添加工具与知识库、配置推理模式及对话开启器,最后进行调试预览并发布为Webapp,实现Agent的创建与部署。
2025-04-30 10:15:00
645
原创 大模型开发平台Dify(一)什么是Dify?如何将文档上传到Dify知识库构建RAG?
Dify是一个开源的大语言模型(LLM)应用开发平台,旨在简化和加速生成式AI应用的创建和部署,为开发者提供了一个用户友好的界面和一系列强大的工具,使他们能够快速搭建生产级的AI应用。Dify通过可视化编排、模块化设计和丰富的功能组件(如RAG、Agent、多模型支持),帮助开发者快速构建生产级AI应用,显著降低技术门槛。Dify提供四种基于LLM构建的应用程序,可以针对不同的应用场景和需求进行优化和定制。聊天助手:基于LLM的对话交互(如客服机器人)文本生成:自动化创作、翻译等任务。
2025-04-29 11:05:13
605
原创 大模型论文 | 看看谷歌DeepMind等团队如何通过“好奇心奖励”机制,让AI在多轮对话中主动探索用户特质
从“好奇心奖励”的提出,到教育和健身场景的成功验证,这项研究不仅展示了AI在个性化对话领域的巨大潜力,也为我们描绘了一个更加人性化的智能交互未来。正如研究团队所言:“一个好的对话代理,应该将每一次交互都视为了解用户的宝贵机会。让我们期待,这份“好奇心”将如何继续点亮AI与人类沟通的星空!
2025-04-28 11:58:34
673
原创 9张图解带你搞懂!大模型核心技术:Transformer、RAG、智能体、大模型微调
AI大模型作为人工智能领域的重要技术突破,正成为推动各行各业创新和转型的关键力量。抓住AI大模型的风口,掌握AI大模型的知识和技能将变得越来越重要。学习AI大模型是一个系统的过程,需要从基础开始,逐步深入到更高级的技术。这里给大家精心整理了资料免费分享。
2025-04-25 20:07:33
445
原创 一文搞懂GraphRAG(RAG + 知识图谱)| GraphRAG是什么?如何进行知识图谱的构建?
GraphRAG(Graph-based Retrieval-Augmented Generation)是检索增强生成(RAG)技术的升级版本,通过将知识图谱(Knowledge Graph)与大型语言模型(LLM)结合,解决了传统RAG在处理复杂查询、多跳推理和跨文档语义关联上的局限。其核心目标是通过结构化的知识图谱表示,捕捉数据中实体、关系及全局语义,从而提升LLM对私有或未训练数据的理解与生成能力。
2025-04-25 20:03:14
929
原创 大模型 | 为什么 Transformer 可能被取代?候选架构有哪些?
当开发者还在争论架构优劣时,GPT - 5、Gemini 3.0 已悄然引入 MoE 模块,而 Llama 3 正在测试 RetNet 变体。这场架构之争的本质,是 AI 从 “大力出奇迹” 走向 “精密系统工程” 的必经之路。
2025-04-22 19:30:48
760
原创 大模型论文 | NVIDIA重磅发布CLIMB:革新LLM预训练数据混合优化,性能超越Llama-3.2
NVIDIA提出的CLIMB框架通过创新的迭代优化方法,有效解决了LLM预训练中的数据混合优化难题。实验结果表明,该方法不仅能提升模型整体性能,还能针对特定领域进行优化。开源的数据集资源将进一步推动社区研究发展。这项工作为提升LLM训练效率开辟了新的研究方向,具有重要的理论和实践价值。论文:https://arxiv.org/abs/2504.13161。
2025-04-21 17:00:40
633
原创 一文搞明白!MCP vs Function Calling vs A2A 关系
尽管 MCP 和 Function Calling 都旨在促进大语言模型(LLM)与外部工具和服务的交互,但它们在设计理念和应用场景上存在显著差异,尤其是在可扩展性方面。Function Calling 由于缺乏统一标准,不同 LLM 需要各自的函数定义格式。如果有 M 个不同 LLM 应用和 N 个不同工具/服务,理论上可能需要实现 M×N 次重复的对接工作。
2025-04-15 14:09:49
893
原创 一文全面总结 MCP、A2A、Function Calling 架构设计
Function Calling 是一种强大的工具,它为大语言模型提供了与外部工具和服务交互的能力,从而解决了大模型知识更新停滞的问题。然而,它的局限性在于缺乏跨模型的一致性和平台依赖性。尽管如此,Function Calling 仍然是一个重要的技术,尤其是在需要快速实现特定功能时。未来,随着技术的不断发展,我们期待看到更多能够克服这些局限性的解决方案。
2025-04-15 13:50:23
801
原创 《大模型基础》大语言模型入门必读书籍!(附完整版PDF)
由浙江大学DAILY实验室毛玉仁研究员、高云君教授领衔撰写的《大模型基础》教材第一版。这本教材为对大语言模型感兴趣的读者系统地讲解相关基础知识、介绍前沿技术。作者团队将认真听取开源社区以及广大专家学者的建议,持续进行月度更新,致力打造易读、严谨、有深度的大模型教材。并且,本书还将针对每章内容配备相关的Paper List,以跟踪相关技术的最新进展。本书包括传统语言模型、大语言模型架构、提示工程、高效参数、模型编辑、搜索增强增加生成等六章内容。
2025-04-14 16:50:14
158
原创 大模型论文解读 | 突破语言模型极限!从128K到4M,英伟达发布超长上下文LLM高效训练新方法
本文通过创新的训练框架和严谨的实验设计,成功将语言模型的上下文窗口推向了4M token 的新高度。UltraLong-8B 模型不仅在长上下文任务中刷新了记录,还在标准任务中展现了强大的竞争力。这项工作也为我们展示了人工智能在处理复杂信息时的无限可能。论文链接:https://arxiv.org/abs/2504.06214项目主页:https://ultralong.github.io/
2025-04-14 15:19:09
817
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人