自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(725)
  • 收藏
  • 关注

原创 当下最适合财会人的AI大模型,我们找到了!

在当前AI大模型快速发展的背景下,选择适合财会人员使用的大模型成为一大难题。本文通过对12款国内外免费主流大模型的综合测评,基于会计主观题、响应速度、智能体能力、多模态理解、联网搜索及SuperCLUE得分等维度,评估了各模型的表现。结果显示,清华智谱清言GLM-4以77.6分位居榜首,ChatGPT 3.5得分最低,为26.1分。测试发现,国产大模型在本土化问题上表现更佳,而大模型在计算能力和会计分录生成方面仍有不足。本文旨在为财会人员提供参考,帮助其选择合适的大模型工具,提升工作效率。文末还提供了大模型

2025-05-15 21:30:49 1076

原创 2025!国内AI大模型平台哪家强?全方面测评来了

2023年是大模型技术全面爆发的标志性元年,各大科技厂商如阿里、百度等纷纷推出自家的大模型产品,如通义千问、文心一言等。同时,围绕大模型生态建设,各类Agent和AI大模型平台也迅速崛起,厂商们正积极拓展用户基础、吸引合作生态入驻,并探索商业化模式。本文从社区规模、平台基础设施能力、生态建设与社区活跃度三个核心维度,对国内AI大模型平台进行全面测评,旨在为AI从业者提供详尽的参考依据,帮助选择合适的大模型平台。

2025-05-15 16:46:47 924

原创 想从事大模型?一大波工作岗位等你选!

文章介绍了技术类和管理类岗位的职业路径,重点聚焦于大模型相关领域。技术类岗位包括算法工程师和研发工程师,要求具备深度学习、编程、数据处理、模型开发与优化等技能,并提供了校园招聘、在线招聘、内部推荐等求职途径。管理类岗位如AI项目经理,强调团队管理、项目规划、跨部门协作和风险管理等能力。文章还提示文末有独家资料包,为求职者提供更多资源支持。

2025-05-15 15:28:47 1072

原创 不可错过!DeepSeek + 本地知识库,打造超强AI助手

本文介绍了如何将DeepSeek与本地知识库结合部署的两种方案。首选方案是基于Cherry Studio搭建,通过本地服务安装嵌入模型,将文本数据转换为向量标识,并配置本地Ollama模型服务。用户可以通过Cherry Studio添加知识文档并进行搜索验证,同时结合DeepSeek大模型处理提问。第二种方案是基于AnythingLLM搭建,通过下载并配置AnythingLLM Desktop,选择Ollama作为模型提供商,并配置工作区上传知识库文档。AnythingLLM还提供API功能,可作为公共知识

2025-05-13 15:38:36 856

原创 DeepSeek大模型微调实战:保姆级全流程指南

第一步 Python环境准备具体请见文件 requirements.txt 上方下载↑↑↑第二步 构造数据集本文数据使用.jsonl文件。数据为拟造,仅供试验1.每一行数据为一个json对象,包含一个问题和一个答案2.初学者请注意数据的内容并没有格式要求,只要在后续步骤中能够处理成训练数据即可第三步,数据处理1.加载数据集2.编写数据格式化逻辑下图的逻辑是将问题部分作为输入,答案部分作为标签。

2025-05-13 15:12:57 1199

原创 10分钟微调专属于自己的大模型

本文介绍了如何使用ms-swift进行大语言模型的安装、推理和微调。首先,通过设置pip全局镜像加速安装ms-swift,并提供了环境对齐的代码。接着,展示了如何使用Python和CLI进行模型的推理测试,包括中文和英文的对话示例。最后,详细说明了如何进行模型的微调,建议在MLP层添加lora_target_modules以提高效果,并提供了微调的Python代码示例,展示了训练过程中的损失和准确率变化。文末提示提供了大模型AGI-CSDN的独家资料包。

2025-05-13 14:53:32 770

原创 基于lora的通义千问qwen大模型微调实战

本文介绍了如何基于LoRA对Qwen模型进行微调,涵盖了从环境准备到单机单卡、单机多卡训练的全过程。首先,需要克隆Qwen仓库并安装相关依赖包,接着下载模型文件。单机单卡训练通过执行Python脚本进行,详细解释了各个参数的含义。单机多卡训练则通过修改脚本并运行torchrun命令实现。微调完成后,模型可以与原始模型合并并保存,最终通过测试代码验证微调效果。文章还提供了测试数据的GitHub仓库链接,并附赠了大模型学习资料包,适合对大模型感兴趣的读者参考。

2025-05-13 14:30:45 1068

原创 精选5本大模型入门书籍,助你快速掌握核心知识!

本文为初学者提供了大模型学习的详细路线图和推荐书籍,帮助从零基础快速入门。文章首先介绍了大模型在人工智能领域的重要性,随后列出了学习大模型的五个关键步骤,并推荐了五本相关书籍,包括《Python编程:从入门到实践》、《深度学习数学基础》、《机器学习实战》、《深度学习》和《大模型应用开发极简入门:基于GPT-4和ChatGPT》。此外,文章还提供了大模型实战案例、视频和PDF合集等资源,帮助学习者全面掌握大模型的知识与技能。文末还附有独家资料包的获取方式,为学习者提供更多支持。

2025-05-12 15:46:26 798

原创 大模型是如何训练的?大模型入门到精通,收藏这一篇就够了

大模型的训练是人工智能领域的核心技术,涉及数据准备、模型架构、训练方法和硬件支持等多个方面。数据准备包括数据收集、预处理和分词标记化,确保模型能够从海量数据中学习。模型架构主要基于Transformer,利用自注意力机制处理复杂语言关系。训练过程分为预训练和微调两个阶段,预训练通过无标签数据学习语义表示,微调则针对特定任务进行优化。硬件支持方面,GPU和TPU加速计算,分布式训练和并行化技术处理大规模数据和参数。训练过程中面临梯度消失、超参数调优和能耗等挑战。未来发展方向包括模型蒸馏、稀疏训练和混合精度训练

2025-05-12 14:55:49 1101

原创 大模型基础:基本概念、Prompt、RAG、Agent及多模态

大模型(LLM)作为人工智能的核心技术,正在深刻改变我们的生活、工作和学习方式。本文从五个方面探讨了大模型的相关内容:1. LLM基础知识,介绍了大语言模型的概念、发展历史及参数规模;2. Prompt Engineering,讲解了如何通过设计提示词引导模型生成更符合用户意图的输出;3. RAG的应用,探讨了检索增强生成技术在信息检索中的应用;4. Agent的应用,分析了智能代理在多任务处理中的潜力;5. 多模态模型,介绍了结合文本、图像和音频处理的多模态技术。文章还提供了大模型AGI-CSDN的独家资

2025-05-12 14:29:25 880

原创 大模型Dify(Agent + RAG)完全指南:一篇文章彻底掌握!

Dify 是一个开源平台,专为构建 AI 应用程序而设计,融合了后端即服务(BaaS)和LLMOps理念,支持多种大型语言模型如Claude3和OpenAI。该平台通过提供强大的数据集管理、可视化Prompt编排和应用运营工具,显著降低了AI应用开发的复杂性。Dify支持低代码/无代码开发,采用模块化设计,提供包括AI工作流、RAG管道、Agent和模型管理等功能组件。开发者可以根据需求选择适合的模型,构建聊天助手、文本生成、智能代理和工作流程等应用。此外,Dify还支持将文档上传至知识库,构建高效的RAG

2025-05-10 21:59:38 1124

原创 手把手教你构建Agentic RAG:一种基于多文档RAG应用的AI Agent智能体

Agentic RAG是一种基于AI Agent的复杂问答系统架构,旨在解决经典RAG在跨文档、多类型信息处理中的局限性。经典RAG通过向量化文档和检索知识块来响应查询,但在面对全局理解、跨文档比较或结合非知识工具等复杂需求时表现不足。Agentic RAG通过引入AI Agent的任务规划与工具协调能力,将RAG引擎作为Agent的工具,构建多层次的代理架构。具体来说,每个文档/知识库配备多个RAG引擎(如向量索引、摘要索引等),并由ToolAgent管理这些工具;顶级代理TopAgent则协调多个Too

2025-05-10 21:30:56 1131

原创 LLM大模型—使用RAG-GPT和Ollama搭建智能客服

本文介绍了如何通过RAG-GPT和Ollama搭建本地部署的智能客服系统,适用于无法访问云端LLM服务或需要保障数据隐私的场景。RAG(Retrieval-Augmented Generation)技术通过索引、检索和生成三个模块实现智能问答:首先将文档分割并编码为向量存储,接着根据用户查询检索相关文档,最后整合信息生成回答。RAG-GPT提供了一套基于Flask框架的开源解决方案,包括前端界面、后端服务和管理控制台,帮助企业快速搭建智能客服系统。项目代码完全开源,开发者可轻松实现智能问答功能。

2025-05-10 15:26:30 672

原创 从知识库到知识图谱:DeepSeek&GraphRAG

开源框架Langchain就集成了包括RAG和Agent功能作为LLM的外挂工具,提升大模型在专业垂直领域的回答水平。RAG能使大模型在生成回答时读取外部信息,即在外部数据库中检索出相关信息作为参考,经过思考后再进行回答。从而能有效减少模型幻觉,避免其在缺乏相关知识的情况下无中生有、胡乱做答,生成更精准的答案。但在过往的实际体验中,我们发现RAG的效果并未充分满足预期。主要在于其难以从全局考虑问题,将不同信息串联起来。

2025-05-08 15:25:02 833

原创 大模型RAG实战|构建知识库:文档和网页的加载、转换、索引与存储

我们要开发一个生产级的系统,还需要对LlamaIndex的各个组件和技术进行深度的理解、运用和调优。本系列将会聚焦在如何让系统实用上,包括:知识库的管理,检索和查询效果的提升,使用本地化部署的模型等主题。我将会讲解相关的组件和技术,辅以代码示例。最终这些文章中的代码将形成一套实用系统。过去一年,大模型的发展突飞猛进。月之暗面的Kimi爆火,Llama3开源发布,大模型各项能力提升之大有目共睹。

2025-05-08 14:56:14 1039

原创 三分钟搭建线上RAG应用,实现定制化的知识库问答

由于大模型API价格已成白菜价,AI应用的开发将进入到RAG时代,而由于有了像阿里云百炼这样的一站式平台,普通开发者也能开发定制化的AI SaaS应用。遥想2023年的3月份,GPT-4的32k上下文的API价格是平均每千字就超过0.5元,如果是加上历史对话,简单的一个问题都要好几块钱。由于价格太贵,很多应用的开发都只停留在简单的对话上,而现在各种大模型成本的降低,才让RAG应用开发成了可能。

2025-05-08 14:24:03 925

原创 一文读懂RAGFlow,从 0 到 1教你搭建RAG知识库

最近随着Deepseek的火爆,如何高效地整合海量数据与生成式模型成为了技术领域内的一大热点。传统的生成模型在回答复杂问题时常常依赖于预训练数据的广度与深度,而检索增强生成(Retrieval-Augmented Generation,简称RAG)则有效结合了检索与生成的优势,为各类应用场景提供了更为灵活、高效的解决方案。前排提示,文末有大模型AGI-CSDN独家资料包哦!RAGFlow是一种融合了数据检索与生成式模型的新型系统架构,其核心思想在于将大规模检索系统与先进的生成式模型(如Transformer

2025-05-08 14:02:28 844

原创 胎教级教程:万字长文手把手教你用Coze打造企业级知识库

Agent,我们一般将其翻译为代理人代理商等。在人工智能领域,Agent 通常被定义为一种具有感知能力的实体,它能够通过对其所处环境的观察来做出相应的决策和反应。这种 Agent 既可以是软件形式的程序,例如对话机器人,也可以具备物理形态,比如扫地机器人在了解 AI Agent 之前,我们先考虑一个场景:我们要写一本 20 万字的关于人工智能最新技术的书在没有大模型之前,我们一般会按照如下流程第一步:先使用搜索引擎搜索一些相关书籍和信息进行阅读,为我们打开思路。

2025-05-07 16:53:19 1003

原创 RAG知识库搭建:手把手教你从零搭建自己的知识库

Word2Vec是一种用于处理自然语言处理的模型,它是在2013年由Google的研究员Mikolov等人首次提出的。Word2Vec通过训练海量的文本数据,能够将每个单词转换为一个具有一定维度的向量。这个向量就可以代表这个单词的语义。因为这个向量是在大量语境中学到的,所以这个向量能很好的表达这个单词的语义。Word2Vec包括Skip-Gram和CBOW两种模型,主要是通过优化模型计算词与词之间的关系,从而获得词的向量表示。Skip-Gram模型是通过一个词预测其上下文。

2025-05-07 15:34:10 1069

原创 手把手教你轻松创建个人AI知识库,非常详细收藏我这一篇就够了

虽然对于大多数人来讲,由于我们的电脑配置等原因,部署本地大模型并且达到很好的效果是很奢侈的一件事情。但是这并不妨碍我们对其中的流程和原理进行详细的了解读者福利:如果大家对大模型感兴趣,这套大模型学习资料一定对你有用如果你是零基础小白,想快速入门大模型是可以考虑的。一方面是学习时间相对较短,学习内容更全面更集中。二方面是可以根据这些资料规划好学习计划和方向。包括:大模型学习线路汇总、学习阶段,大模型实战案例,大模型学习视频,人工智能、机器学习、大模型书籍PDF。带你从零基础系统性的学好大模型!

2025-05-07 14:49:09 1158

原创 一文教你如何搭建基于大模型的智能知识库,看到就是赚到!!!

自从2022年底ChatGPT横空出世引爆了大模型技术浪潮,时至今日已经一年有余,如何从技术侧向商业侧落地转化是一直以来业内普遍关注的问题。前排提示,文末有大模型AGI-CSDN独家资料包哦!从目前企业端观察到的情况来看,基于大模型的知识库是一个比较有潜力和价值的应用场景,能够帮助企业大幅提高知识的整合和应用效率。然而由于通用预训练大模型的训练数据主要来源于公开渠道,缺乏企业专业和私有知识,直接使用将难以支撑企业内部的专业知识问答。

2025-05-06 17:44:48 999

原创 本地大模型部署和基于RAG方案的私有知识库搭建

以上就是本地大模型部署和基于RAG方案的私有知识库搭建的基本操作。除此之外,还有更多丰富有趣的功能等待探索。如今大模型遍布各行各业、各个领域,基于RAG方案的私有知识库技术也逐渐发展,成为提升个人工作效率与创造潜能的新风尚。本地部署模型意味着用户能在自己的设备上享受即时响应的智能辅助,无需依赖云端,既保护了个人数据隐私,又确保了操作的低延迟与高可靠性。结合RAG方案的私有知识库,则让每位用户能够构建专属自己的知识宇宙。

2025-05-06 16:39:18 979

原创 AI智能体:手把手带你用扣子搭建知识库,还能自动收集客户需求

本次我用扣子搭建了一套提示词基础入门的智能体。利用智能体把需求收集到飞书表格,构建了一整套自动化需求收集流程。如果我们有一套细分领域的专家智能体,通过这种近乎零成本的方式,就能为我们带来可观的商机。读者福利:如果大家对大模型感兴趣,这套大模型学习资料一定对你有用如果你是零基础小白,想快速入门大模型是可以考虑的。一方面是学习时间相对较短,学习内容更全面更集中。二方面是可以根据这些资料规划好学习计划和方向。

2025-05-06 15:36:10 966

原创 为什么大模型需要外挂知识库?这是我听过最好的回答

是指一个独立于大模型之外的外部数据存储系统,用于扩展和补充模型的知识能力。其中,

2025-04-28 17:09:24 911

原创 大模型知识库搭建秘籍:手把手教你构建本地知识库!

大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。包括:大模型学习线路汇总、学习阶段,大模型实战案例,大模型学习视频,人工智能、机器学习、大模型书籍PDF。观看零基础学习书籍和视频,看书籍和视频学习是最快捷也是最有效果的方式,跟着视频中老师的思路,从基础到深入,还是很容易入门的。以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。如果你是零基础小白,想快速入门大模型是可以考虑的。

2025-04-28 16:58:12 953

原创 2025年AI大模型常问的问题以及答案,最新的面试大厂题!

在2025年AI大模型的面试中,常问的问题以及答案可能会涵盖多个方面,包括AI大模型的基础知识、训练过程、应用、挑战和前沿趋势等。由于我无法直接附上174题的完整面试题库及其答案,我将基于提供的信息和当前AI大模型领域的热点,给出一些常见的问题和答案示例。前排提示,文末有大模型AGI-CSDN独家资料包哦!

2025-04-28 16:36:53 1257

原创 2025年最全汇总:国内24家大模型面试经验分享,非常详细!

2024年三月前后,大模型突然国内火了起来,笔者就面了一些公司,有大厂有初创。最近挺多朋友聊大模型相关的内容,对面试也感兴趣,想这里综合写一下,也希望能和各位同行交流下。因为有一段时间了(最早面的半年了),所以大部分细节记不清了,列表顺序大概齐按面试时间排的。前排提示,文末有大模型AGI-CSDN独家资料包哦!后边会大体总结下面试的经验感悟,以及我认为要注重的内容,一家之言仅供参考。这段时间面试了很多家,也学到了超级多东西。

2025-04-28 16:04:34 864

原创 大模型私有化部署实战:腾讯云GPU服务器配置保姆级教程

通过本文的详细指南,相信你已经掌握了在腾讯云GPU服务器上部署私有化大模型的完整流程。随着大模型技术的不断发展,我们还可以期待:更高效的量化方法更快的推理速度更低的资源消耗更智能的自动优化记住,模型部署是一个需要不断优化和调整的过程。根据实际应用场景和需求,选择合适的优化策略才能达到最佳效果。在大模型时代,我们如何有效的去学习大模型?

2025-04-28 15:48:34 791

原创 手把手教你用Ollama & AnythingLLM搭建AI知识库,无需编程,跟着做就行!

本地运行大模型耗资源,需要选择较小的模型作为基础模型。在终端中运行时可能会出现 CUDA 错误,表示显存不足,导致提供的端口失效。中文支持不够完善。3. 文中提到的技术软件工具有:Ollama、Chatbox、Open WebUI、向量数据库、嵌入模型、本地模型 Gemma、AnythingLLM。

2025-04-27 14:57:03 1493

原创 实测:本地跑llama3:70B需要什么配置,普通电脑能跑起来吗?

前段时间发布的开源大语言模型的能力通过测试结果的展示已经达到了一个全新的高度,甚至可以与Claude 3 Sonnet和Gemini 1.5 Pro等一众顶级模型相媲美,甚至在某些方面已经超过了去年发布的两款GPT-4。这一突破使得Llama 3一举成为当前顶流的大语言模型之一。展示一波LLM排名,这么帅还不要钱,就问你想不想要也许从此强大的模型不再只是厂商云端的特权,现在每个人都可以在本地部署Llama 3。无论是8B还是70B的版本,用户都可以选择最适合自己需求的版本进行部署。

2025-04-27 14:34:08 1020

原创 AI在教育中的五大应用场景,助力教学与学习全面智能化解决方案

AI正在逐步改变教育行业的面貌,从教学、辅导到考试,各个环节都可以通过AI技术实现智能化,提升教育效率和教学质量。随着AI技术的不断发展和教育行业需求的日益增长,未来教育将变得更加智能化、个性化和高效,带来更多的发展机会和创新产品。教育工作者和技术开发者应紧跟这一潮流,抓住AI带来的机遇,推动教育行业的智能化转型。

2025-04-27 14:16:22 723

原创 私有化AI部署秘诀:如何挑选适合的大模型GPU

随着人工智能技术的迅猛发展,选择合适的硬件对于大模型的训练和推理变得至关重要。本文将深入探讨大模型所需的硬件,特别是GPU(图形处理单元)和CPU(中央处理单元)的选择。通过对GPU和显卡、GPU Core与AMD CU、CUDA Core与Tensor Core的详细解读,帮助你更好地理解和选择适合自己需求的硬件。CPU是计算机的“大脑”,负责处理计算机中的所有指令和数据。我们可以把CPU看作一家餐厅的主厨,负责制定菜单、分配任务、并确保所有菜品按时完成。

2025-04-27 13:56:43 658

原创 关于大模型微调,你想知道的都在这里了,非常详细!

感性理解:大模型微调指的是“喂”给模型更多信息,对模型的特定功能进行 “调教”,即通过输入特定领域的数据集,让其学习这个领域的知识,从而让 大模型能够更好的完成特定领域的NLP任务,例如情感分析、命名实体识别、文本分类、对话聊天等;微调并不是大模型领域独有的概念,而是伴随着深度学习技术发展,自然诞生的一个技术分支,旨在能够有针对性的调整深度学习模型的参数(或者模型结构),从而能够使得其更佳高效的执行某些特定任务,而不用重复训练模型;

2025-04-26 09:15:00 656

原创 大模型能干什么?大模型应用场景大合集

按部署方式划分,AI大模型分为:云侧大模型和端侧大模型。云侧大模型包括:通用大模型和行业大模型,端侧大模型包括:手机大模型和PC大模型。包括:大模型学习线路汇总、学习阶段,大模型实战案例,大模型学习视频,人工智能、机器学习、大模型书籍PDF。带你从零基础系统性的学好大模型!观看零基础学习书籍和视频,看书籍和视频学习是最快捷也是最有效果的方式,跟着视频中老师的思路,从基础到深入,还是很容易入门的。以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。

2025-04-26 09:00:00 1140

原创 LLM|基于大语言模型搭建私有化知识库,非常详细!

下面让我们开始吧。

2025-04-25 15:41:29 1038

原创 LLM-大模型私有模型训练步骤方法总结,收藏这一篇就够了!

本文将从宏观层面说明 LLM 私有模型的训练步骤,包括预训练,微调,合规对齐,再到最后如何集成到我们的 APP 中。⼀家⾦融科技企业希望利⽤⼤模型来解决保险智能客服的业务,希望能够⽤AI助⼿来替代原有的智能客服。前排提示,文末有大模型AGI-CSDN独家资料包哦!本文从宏观层面,简单的讲解了下大模型私有模型训练的相关步骤,以及如何而将 Fixed 模型集成到我们的 APP 中,其中未涉及到一些复杂的名词,后续我们一步步总结如何将 LLM 应用落地实践过程。

2025-04-25 15:22:26 843

原创 大模型知识库——检索增强(RAG)技术与向量数据库的选择

顾名思义,RAG的全拼是Retrieval-augmented Generation,检索增强生成,R——代表的是Retrieval-检索器,G代表的是Generation-生成器,所以RAG主要有两大块组成,检索与生成。

2025-04-25 14:59:10 1342

原创 大模型中的RAG实战案例分析,超详细手把手教会你

在当今人工智能领域,尤其是自然语言处理(NLP)领域,大型预训练模型(大模型)已成为推动技术进步的关键力量。然而,随着模型规模的增长,其泛化能力虽得到了显著提升,但在特定领域或垂直场景下,仍面临着专业知识不足的问题。为了解决这个问题,一种名为“Retrieval-Augmented Generation”(简称RAG)的技术被广泛应用。本文将探讨RAG在大模型中的应用案例,旨在为读者提供一个全面的视角,了解如何利用RAG技术来增强大模型在特定场景下的表现。

2025-04-25 14:29:00 1171

原创 大模型RAG是什么?大模型为什么还需要RAG?

全称为Retrieval-Augmented Generation(检索增强生成),是一种结合了信息检索技术与语言生成模型的人工智能技术。RAG通过从外部知识库中检索相关信息,并将其作为提示(Prompt)输入给大型语言模型(LLMs),以增强模型处理知识密集型任务的能力,如问答、文本摘要、内容生成等。RAG模型的核心优势在于其能够将传统信息检索系统的优势与生成式大语言模型的功能结合起来。通过这种方式,LLM能够撰写更准确、更具时效性且更贴合具体需求的文字。

2025-04-24 16:14:31 929

原创 大模型算法岗常见面试题100道,收藏这一篇就足够了!

大模型LLM(Large Language Models) 通常采用基于Transformer的架构。Transformer模型由多个编码器或解码器层组成,每个层包含多头自注意力机制和前馈神经网络。这些层可以并行处理输入序列中的所有位置,捕获长距离依赖关系。大模型通常具有数十亿甚至数千亿个参数,可以处理大量的文本数据,并在各种NLP任务中表现出色。

2025-04-24 15:48:44 1101

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除